Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Introducción a la Estadística
2
Introducción a la Estadística
Descripción de los conjuntos de datos Uso de la Estadística para sintetizar conjuntos de datos Probabilidad Variables aleatorias discretas Variables aleatorias normales
3
Uso de la Estadística para sintetizar conjuntos de datos
4
Uso de la Estadística para sintetizar conjuntos de datos
3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
5
Definición de Estadístico
Se entiende por estadístico cualquier magnitud numérica cuyo valor se pueda determinar a partir de los datos.
6
Estadísticos que describen la tendencia central
Se entiende por estadístico cualquier magnitud numérica cuyo valor se pueda determinar a partir de los datos. Primeramente estudiaremos los estadísticos que describen la tendencia central del conjunto de datos; es decir, que describen el centro del conjunto de los valores de los datos.
7
Estadísticos que describen la tendencia central
Se entiende por estadístico cualquier magnitud numérica cuyo valor se pueda determinar a partir de los datos. Presentaremos sucesivamente tres estadísticos de este tipo: Media muestral. Mediana muestral. Moda muestral.
8
Uso de la Estadística para sintetizar conjuntos de datos
3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
9
La media muestral
10
La media muestral Supongamos que se dispone de una muestra de n datos cuyos valores serán designados por x1, x2, x3, …,xn.
11
La media muestral n datos cuyos valores serán designados por x1, x2, x3, …,xn. Un estadístico usado para indicar el centro de este conjunto de datos es la media muestral, definida como la media aritmética de los valores de los datos.
12
Definición de la media muestral
La media muestral es la media aritmética de los valores de los datos.
13
La media muestral
14
El símbolo de sumatoria
15
El símbolo de sumatoria
16
El símbolo de sumatoria
17
El símbolo de sumatoria
18
El símbolo de sumatoria
19
El símbolo de sumatoria
20
El símbolo de sumatoria
21
La media muestral
22
Ejemplo: La inversión extranjera en México
Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
23
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
24
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
25
Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Total 561.9
26
Ejemplo: La inversión extranjera en México
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
27
Ejemplo: La inversión extranjera en México
Media muestral
28
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
29
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
30
La media muestral. Ejemplo
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580 Calificaciones obtenidas en el examen SAT para 15 alumnos:
31
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580
32
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580
33
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580 10270 10170
35
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580
36
Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580
37
Propiedades de la media muestral
38
Propiedades de la media muestral
39
Propiedades de la media muestral
40
Propiedades de la media muestral
41
Propiedades de la media muestral
42
Propiedades de la media muestral
43
Propiedades de la media muestral
44
Propiedades de la media muestral
45
Propiedades de la media muestral
46
Cálculo de la media muestral a partir de una tabla de frecuencias
47
Cálculo de la media muestral a partir de una tabla de frecuencias
48
Cálculo de la media muestral a partir de una tabla de frecuencias
49
Cálculo de la media muestral a partir de una tabla de frecuencias
50
Cálculo de la media muestral a partir de una tabla de frecuencias
51
Cálculo de la media muestral a partir de una tabla de frecuencias
52
Ejemplo Los datos siguientes reflejan el número total de incendios en Ontario (Canadá), ocurridos en los sucesivos meses del año 2002: 6, 13, 5, 7, 7, 3, 7, 2, 5, 6, 9, 8
53
Ejemplo: Número de incendios en el Cánada
Los datos siguientes reflejan el número total de incendios en Ontario (Canadá), ocurridos en los sucesivos meses del año 2002: MES NÚMERO DE INCENDIOS Enero 6 Febrero 13 Marzo 5 Abril 7 Mayo Junio 3 Julio Agosto 2 Septiembre Octubre Noviembre 9 Diciembre 8
54
Ejemplo: Número de incendios en el Cánada
55
Ejemplo: Número de incendios en el Cánada
MES NÚMERO DE INCENDIOS Enero 6 Febrero 13 Marzo 5 Abril 7 Mayo Junio 3 Julio Agosto 2 Septiembre Octubre Noviembre 9 Diciembre 8 Total 78 Media muestral 6.5
56
Ejemplo: Número de incendios en el Cánada
# 6 2 13 3 5 7 8 9 # Frecuencia 2 1 3 5 10 6 12 7 21 8 9 13 Total 78 Media muestral 6.5
57
Ejemplo Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13 La tienda de bicicletas “Latitud 19N” vendió en el mes de noviembre las siguientes bicicletas:
58
Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13
59
Precio Cantidad 600 3 850 4 1,000 2 1,500 2,000 1 Precio Bici 1 850
| Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13 Precio Cantidad 600 3 850 4 1,000 2 1,500 2,000 1
60
Precio Cantidad 600 3 850 4 1,000 2 1,500 2,000 1
62
Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6
| Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13
63
Precio Cantidad 600 3 850 4 1,000 2 1,500 2,000 1
64
El precio medio de venta fue de 1,054 pesos.
Las bicicletas vendidas en Latitud 19 N en el mes de noviembre fueron: Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13 El precio medio de venta fue de 1,054 pesos.
65
Las bicicletas vendidas en una tienda en el mes de noviembre fueron:
Precio Cantidad Precio x Cantidad 600 3 1800 850 4 3400 1000 2 2000 1500 4500 1 13700 1054 El precio medio de venta fue de 1,054 pesos.
66
Media muestral ponderada
67
Media muestral ponderada
68
Media muestral ponderada
69
Media muestral ponderada
70
Media muestral ponderada
71
Media muestral ponderada
72
Desviaciones
73
Desviaciones
74
Desviaciones
75
Desviaciones
76
Desviaciones
77
Desviaciones
78
Desviaciones
79
La media muestral como centro de gravedad del conjunto de datos
80
Ejemplo: La inversión extranjera en México
Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
81
Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Total 561.9
82
Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
Periodo Monto Monto menos la media 1999 82.6 26.4 2000 91.6 35.4 2001 63.8 7.6 2002 93.0 36.8 2003 11.8 -44.4 2004 21.9 -34.3 2005 10.2 -46.0 2006 22.1 -34.1 2007 132.4 76.2 2008 32.5 -23.7 56.2 0.0
83
Ejemplo: La inversión extranjera en México
Media muestral
84
Uso de la Estadística para sintetizar conjuntos de datos
3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
85
La mediana muestral
86
La mediana muestral Pasamos ahora a estudiar otro estadístico que nos da una medida de la tendencia central del conjunto de datos, la mediana.
87
La mediana muestral Para motivar su introducción, y explicar su utilidad, calcularemos la media muestral en dos ejemplos ad hoc, y haremos ver un problema que presenta.
88
Ejemplo del cálculo de la media muestral con un valor atípico
Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Las bicicletas vendidas en Latitud 19N en el mes de diciembre fueron:
89
Comparación entre las ventas de noviembre y diciembre
Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13 Comparación entre las ventas de noviembre y diciembre
90
Diciembre Noviembre Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000
600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Precio Bici 1 850 Bici 2 1,500 Bici 3 600 Bici 4 Bici 5 2,000 Bici 6 Bici 7 Bici 8 Bici 9 Bici 10 Bici 11 1,000 Bici 12 Bici 13
91
Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15
92
Precio Cantidad 600 4 850 3 1,000 2 1,500 2,000 40,000 1 Precio Bici 1
93
3,697 Media muestral Precio Cantidad 600 4 2,400 850 3 2,550 1,000 2
2,000 1,500 4,500 4,000 40,000 1 15 55,450 Media muestral 3,697
94
Precio Cantidad 600 4 850 3 1,000 2 1,500 2,000 40,000 1
95
El precio medio de venta en diciembre fue de 3,697 pesos
Las bicicletas vendidas en una tienda en el mes de diciembre fueron: Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 El precio medio de venta en noviembre fue de 1,054 pesos El precio medio de venta en diciembre fue de 3,697 pesos
96
Ejemplo del cálculo de la media muestral con un valor atípico
Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
97
Meses 6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
98
Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65
99
La media muestral es 7.4 meses
Pacientes Meses x Pacientes 1 2 5 10 3 30 4 7 28 6 42 8 24 9 63 20 11 33 12 13 14 15 16 32 22 37 Total 65 482 7.4 La media muestral es 7.4 meses
100
Media
101
La mediana muestral Una debilidad de la media muestral como indicador del centro de un conjunto de datos es que su valor se encuentra muy afectado por los extremos de los datos.
102
La mediana muestral será denotada por m.
Un estadístico que se utiliza también para representar el centro de un conjunto de datos es la mediana muestral, definida como el valor medio cuando los datos están ordenados de menor a mayor. La mediana muestral será denotada por m.
103
La mediana muestral La mediana muestral es el valor central de un conjunto ordenado de datos.
104
¿Cómo se determina la mediana muestral?
Ordene los datos de menor a mayor. Si el número de datos es impar, la mediana muestral coincide con el valor que se encuentra en la posición central en la lista ordenada. Si el número de datos es par, la mediana muestral es la media de los dos valores que ocupan las posiciones centrales.
105
¿Cómo se determina la mediana muestral?
De esta definición se deduce que, si existen tres datos, la mediana muestral coincide con el segundo valor más pequeño; mientras que, si existen cuatro valores, coincide con la media de los valores más pequeños segundo y tercero.
106
¿Cómo se determina la mediana muestral?
Para un conjunto de datos de n valores, la mediana muestral coincide con el (n+1)/2 menor valor ordenado, cuando n es impar.
107
¿Cómo se determina la mediana muestral?
Para un conjunto de datos de n valores, la mediana muestral coincide con la media de los valores ordenados que ocupan las posiciones (n/2) y (n/2+1), cuando n es par.
108
¿Cómo se determina la mediana muestral?
109
Ejemplo Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Las bicicletas vendidas en Latitud 19N en el mes de diciembre fueron:
110
Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15 Precio Bici 5 600 Bici 7 Bici 8 Bici 13 Bici 2 850 Bici 3 Bici 12 Bici 4 1,000 Bici 6 Bici 1 1,500 Bici 11 Bici 14 Bici 10 2,000 Bici 15 Bici 9 40,000
111
Precio 1 Bici 5 600 2 Bici 7 3 Bici 8 4 Bici 13 5 Bici 2 850 6 Bici 3 7 Bici 12 8 Bici 4 1,000 9 Bici 6 10 Bici 1 1,500 11 Bici 11 12 Bici 14 13 Bici 10 2,000 14 Bici 15 15 Bici 9 40,000
112
Las bicicletas vendidas en una tienda en el mes de diciembre fueron:
El precio medio de venta en noviembre fue de 1,054 pesos Precio Bici 1 1,500 Bici 2 850 Bici 3 Bici 4 1,000 Bici 5 600 Bici 6 Bici 7 Bici 8 Bici 9 40,000 Bici 10 2,000 Bici 11 Bici 12 Bici 13 Bici 14 Bici 15
113
Ejemplo Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
114
Meses 6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
115
Meses 6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 Meses 1 4 9 2 5 3 10 6 11 12 7 13 14 15 16 8 22 37
116
La mediana muestral es 6 meses
1 4 9 2 5 3 10 6 11 12 7 13 14 15 16 8 22 37 La mediana muestral es 6 meses
117
La media muestral es 7.4 meses La mediana muestral es 6 meses
1 4 9 2 5 3 10 6 11 12 7 13 14 15 16 8 22 37 Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65 La media muestral es 7.4 meses La mediana muestral es 6 meses
118
Media Mediana
119
Ejemplo Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
120
Ordenando de menor a mayor
Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Periodo Millones de dólares 2005 10.2 2003 11.8 2004 21.9 2006 22.1 2008 32.5 2001 63.8 1999 82.6 2000 91.6 2002 93.0 2007 132.4 Ordenando de menor a mayor
121
Periodo Millones de dólares 2005 10.2 2003 11.8 2004 21.9 2006 22.1 2008 32.5 2001 63.8 1999 82.6 2000 91.6 2002 93.0 2007 132.4
122
Calificaciones obtenidas por 15 alumnos en el examen SAT:
Ejemplo Matemáticas Lectura 750 700 710 720 790 780 680 620 610 640 630 540 550 570 600 580 Calificaciones obtenidas por 15 alumnos en el examen SAT:
123
Ordenando de menor a mayor
Matemáticas 750 700 720 790 620 640 710 540 570 580 Matemáticas 540 570 580 620 640 700 710 720 750 790 Ordenando de menor a mayor
124
Alumno Matemáticas 1 540 2 570 3 580 4 620 5 640 6 700 7 8 9 710 10 11 720 12 750 13 14 790 15
125
Ordenando de menor a mayor
Lectura 750 710 700 780 680 610 630 550 600 720 Lectura 550 600 610 630 680 700 710 720 750 780 Ordenando de menor a mayor
126
Alumno Lectura 1 550 2 600 3 4 610 5 630 6 680 7 8 700 9 10 710 11 12 720 13 750 14 15 780
127
La media muestral y la mediana muestral
Tanto la media muestral como la mediana muestral son estadísticos útiles para describir la tendencia central de un conjunto de datos.
128
La media muestral y la mediana muestral
La media muestral, siendo la media aritmética, utiliza todos los datos. La mediana muestral, puesto que sólo utiliza un único valor central o bien un par de valores centrales, no se ve afectada por los valores extremos.
129
La media muestral y la mediana muestral
Para los conjuntos de datos aproximadamente simétricos sobre su valor central, la media muestral y la mediana muestral tienen valores próximos.
130
La media muestral y la mediana muestral. Ejemplo
Para los conjuntos de datos aproximadamente simétricos sobre su valor central, la media muestral y la mediana muestral tienen valores próximos. Por ejemplo, los datos 4, 6, 8, 8, 9, 12, 15, 17, 19, 20, 22 son, grosso modo, simétricos alrededor del valor 12, que es su mediana. La media es 140/11 = 12.73, que se encuentra próxima a 12.
131
La media muestral y la mediana muestral. Ejemplo
# Número 1 4 2 6 3 8 5 9 12 7 15 17 19 10 20 11 22 140
132
La media muestral y la mediana muestral
La respuesta a la pregunta sobre cuál de los dos estadísticos sumariales es más informativo depende de qué es lo que se pretende conocer del conjunto de datos.
133
La media muestral y la mediana muestral
La respuesta a la pregunta sobre cuál de los dos estadísticos sumariales es más informativo depende de qué es lo que se pretende conocer del conjunto de datos. Por ejemplo, si el gobierno establece un impuesto sobre la renta con tarifa plana (proporcional) y se pretende averiguar qué recaudación cabe esperar, la renta media de los ciudadanos será más interesante que la mediana (¿por qué?).
134
La media muestral y la mediana muestral
La respuesta a la pregunta sobre cuál de los dos estadísticos sumariales es más informativo depende de qué es lo que se pretende conocer del conjunto de datos. Por el contrario, si el gobierno estuviera interesado en determinar un valor central de la cantidad de renta que los ciudadanos dedican a la vivienda, la mediana muestral podría ser más informativa (¿por qué?).
135
La media muestral y la mediana muestral
Aunque es interesante analizar si la media muestral o la mediana muestral es mas informativa en una situación concreta, observe que no debemos restringir nuestro conocimiento a sólo una de dichas magnitudes. Ambas son importantes y, por tanto, las dos se han de calcular cuando se está sintetizando un conjunto de datos.
136
Percentiles muestrales
137
Percentiles muestrales
La mediana muestral es un caso particular de los estadísticos conocidos como percentiles muestrales de orden 100p por ciento, donde p puede ser cualquier valor comprendido entre 0 y 1.
138
Percentiles muestrales
La mediana muestral es un caso particular de los estadísticos conocidos como percentiles muestrales de orden 100p por ciento, donde p puede ser cualquier valor comprendido entre 0 y 1. Grosso modo, el percentil muestral de orden 100p por ciento es aquel valor que verifica que el 100p por ciento de los datos son menores que él y que el 100( 1-p)% de los datos son mayores que él.
139
Percentiles muestrales
Si existen dos de los datos que cumplen las condiciones anteriores, el percentil muestral de orden 100p por ciento se define como la media aritmética de ambos.
140
Percentiles muestrales
Observe que la mediana muestral se corresponde con el percentil muestral de orden 50%. Es decir, coincide con el percentil muestral de orden 100p por ciento cuando p = 0.50.
141
Percentiles muestrales
Supongamos que se han ordenado de menor a mayor todos los datos de una muestra de tamaño n. Para determinar el percentil muestral de orden 100p por ciento se debe encontrar aquel valor que verifica que: 1. Al menos np valores de los datos son menores o iguales que él. 2. Al menos n(1-p) valores de los datos son mayores o iguales que él.
142
Percentiles muestrales
Ahora bien, si np no es un entero, el único valor de los datos que cumple ambos puntos es aquel cuya posición de orden coincide con el primer entero superior a np.
143
Percentiles muestrales
Ahora bien, si np no es un entero, el único valor de los datos que cumple ambos puntos es aquel cuya posición de orden coincide con el primer entero superior a np Por ejemplo, supongamos que se quiere determinar el percentil muestral de orden 90% en una muestra de tamaño n = 12. Puesto que p = 0.9, se tiene np = y n(1-p) = 1.2
144
Percentiles muestrales
Ahora bien, si np no es un entero, el único valor que cumple ambos puntos es aquel cuya posición de orden coincide con el primer entero superior a np. Si n=12 y p=0.90 tenemos np = 10.8 y n(1-p) = 1.2 1. Al menos 10.8 valores de los datos sean menores o iguales que él (por consiguiente, el dato debe estar en la posición de orden 11 o mayor). 2. Al menos 1.2 valores de datos sean mayores o iguales que él (por tanto, debe ocupar la posición de orden 11 o menor).
145
Percentiles muestrales
Ahora bien, si np no es un entero, el único dato que cumple ambos puntos es aquel cuya posición de orden coincide con el primer entero superior a np. Si n=12 y p=0.90 tenemos np = 10.8 y n(1-p) = 1.2 1. Al menos 10.8 valores de los datos sean menores o iguales que él (por consiguiente, el valor de datos debe estar en la posición de orden 11 o mayor). 2. Al menos 1.2 valores de datos sean mayores o iguales que él (por tanto, debe ocupar la posición de orden 11 o menor). Evidentemente, el único dato que cumple ambos puntos es aquél que ocupa la posición de orden 11, y, en consecuencia, éste será el percentil muestral de orden 90%.
146
Percentiles muestrales
Por otro lado, si np es un entero, tanto el dato que ocupa la np posición de orden como el dato que ocupa la posición de orden np+1 cumplen las condiciones de las definiciones 1 y 2; en este caso, el percentil muestral de orden 100p por ciento será igual a la media aritmética de los dos datos anteriores.
147
Percentiles muestrales
Por otro lado, si np es un entero, tanto el valor de los datos que ocupa la np posición de orden como el valor de los datos que ocupa la posición de orden np+1 cumplen las condiciones de las definiciones 1 y 2; en este caso, el percentil muestral de orden 100p por ciento será igual a la media aritmética de los dos valores de los datos anteriores. Por ejemplo, supongamos que se desea encontrar el percentil muestral de orden 95% en un conjunto de datos con n = 20 valores
148
Percentiles muestrales
Por otro lado, si np es un entero, tanto el valor de los datos que ocupa la np posición de orden como el valor de los datos que ocupa la posición de orden np+1 cumplen las condiciones de las definiciones 1 y 2; en este caso, el percentil muestral de orden 100p por ciento será igual a la media aritmética de los dos valores de los datos anteriores. n=20, p=0.95, np=19, np+1=20 En este caso, tanto el 19° valor como el 20° valor (los dos valores mayores) serán mayores o iguales que al menos np = 20(0,95) = 19 de los datos, y serán menores o iguales que al menos n(1-p) = 1 de dichos valores.
149
Percentiles muestrales
Por otro lado, si np es un entero, tanto el valor de los datos que ocupa la np posición de orden como el valor de los datos que ocupa la posición de orden np+1 cumplen las condiciones de las definiciones 1 y 2; en este caso, el percentil muestral de orden 100p por ciento será igual a la media aritmética de los dos valores de los datos anteriores. n=20, p=0.95, np=19, np+1=20 El percentil muestral de orden 95% será, pues, la media aritmética de los valores que ocupan las posiciones de orden 19 y 20 (es decir, los dos mayores).
150
Método para encontrar los percentiles muestrales
Para encontrar el percentil muestral de orden 100p% de un conjunto de datos de tamaño n: 1. Ordene los datos en sentido creciente. 2. Si np no es un entero, determine el menor entero mayor que np. El dato que ocupa la posición de orden igual a este último entero será el percentil muestral al 100p por ciento. 3. Si np es un entero, el percentil muestral de orden 100p por ciento coincidirá con la media aritmética de los valores que ocupan las posiciones de orden np y np + 1.
151
El percentil muestral de orden 25% se llama primer cuartil.
Cuartiles El percentil muestral de orden 25% se llama primer cuartil. El percentil muestral de orden 50% se denomina mediana o segundo cuartil. El percentil muestral de orden 75% se llama tercer cuartil.
152
Cuartiles Los cuartiles dividen el conjunto de los datos en cuatro partes, de forma que, aproximadamente, un 25% de los valores de datos se encuentran por debajo del primer cuartil, otro 25% de los valores se encuentra entre el primer y el segundo cuartil, un tercer 25% se encuentra entre el segundo y el tercer cuartil y, por último, el 25% restante de los valores supera al tercer cuartil.
153
Cuartiles. Ejemplo La siguiente tabla muestra las exportaciones de plátanos, en toneladas métricas, de países iberoamericanos y caribeños. Encuentre los cuartiles.
154
PAÍS TONELADAS MÉTRICAS Ecuador 4,095,191 Costa Rica 2,113,652 Colombia 1,710,949 Guatemala 857,164 Panamá 489,805 Honduras 183,400 México 81,044 Santa Lucía 72,795 Brasil 72,468 Belice 64,400 República Dominicana 62,429 Nicaragua 44,402 San Vicente y las Granadinas 43,810 Jamaica 40,900 Surinam 34,000 Venezuela 33,543 Dominica 29,810 Bolivia 9,377 Perú 856 Granada 707 Argentina 412 Trinidad y Tobago 87 El Salvador 72 Paraguay 66 Chile 18 Guayana 10 TOTAL 10,041,367 La siguiente tabla muestra las exportaciones de plátanos, en toneladas métricas, de países iberoamericanos y caribeños. Encuentre los cuartiles.
156
PAÍS TONELADAS MÉTRICAS Ecuador 4,095,191 Costa Rica 2,113,652 Colombia 1,710,949 Guatemala 857,164 Panamá 489,805 Honduras 183,400 México 81,044 Santa Lucía 72,795 Brasil 72,468 Belice 64,400 República Dominicana 62,429 Nicaragua 44,402 San Vicente y las Granadinas 43,810 Jamaica 40,900 Surinam 34,000 Venezuela 33,543 Dominica 29,810 Bolivia 9,377 Perú 856 Granada 707 Argentina 412 Trinidad y Tobago 87 El Salvador 72 Paraguay 66 Chile 18 Guayana 10 TOTAL 10,041,367 PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
157
PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
158
PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
159
PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
160
PAÍS TONELADAS MÉTRICAS Guayana 10 Chile 18 Paraguay 66 El Salvador 72 Trinidad y Tobago 87 Argentina 412 Granada 707 Perú 856 Bolivia 9,377 Dominica 29,810 Venezuela 33,543 Surinam 34,000 Jamaica 40,900 San Vicente y las Granadinas 43,810 Nicaragua 44,402 República Dominicana 62,429 Belice 64,400 Brasil 72,468 Santa Lucía 72,795 México 81,044 Honduras 183,400 Panamá 489,805 Guatemala 857,164 Colombia 1,710,949 Costa Rica 2,113,652 Ecuador 4,095,191 TOTAL 10,041,367
161
Uso de la Estadística para sintetizar conjuntos de datos
3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
162
La moda muestral
163
La moda muestral Otro indicador de la tendencia central es la moda muestral, que se define como el dato que aparece con mayor frecuencia.
164
La moda muestral Si no existe un único valor que aparezca con mayor frecuencia en el conjunto de datos, aquellos valores que tengan la máxima frecuencia se denominan valores modales. En esta situación se dice que no existe un valor único de la moda muestral.
165
La moda muestral Resulta muy sencillo obtener el valor modal a partir de una tabla de frecuencias, puesto que coincide con aquel valor que tenga mayor frecuencia.
166
Ejemplo Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
167
Meses 6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
168
De esta tabla de frecuencias es claro que la moda muestral es 3 meses.
Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65 De esta tabla de frecuencias es claro que la moda muestral es 3 meses.
170
Moda
171
Moda Meses 1 2 3 4 8 9 11 12 13 14 15 16 22 37 Total Pacientes 5 10 7
65 Moda
172
La media muestral es 7.4 meses La mediana muestral es 6 meses
8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65 La media muestral es 7.4 meses La mediana muestral es 6 meses La moda muestral es 3 meses
173
Media Mediana Moda
174
Se tira un dado 200 veces. La tabla muestra los resultados obtenidos.
Ejemplo 5 2 3 4 1 6 Se tira un dado 200 veces. La tabla muestra los resultados obtenidos.
175
1 35 2 45 3 30 4 5 24 6 36 Total 200 Número obtenido Frecuencia 5 2 3
176
Moda muestral Número obtenido Frecuencia 1 35 2 45 3 30 4 5 24 6 36
177
Moda muestral
178
Ejemplo Distribución de las causas de muerte de hombres blancos debido a accidentes o a violencia: Causa de muerte Número Coche 30,500 Otros accidentes 27,500 Suicidio 20,234 Homicidio 8,342 What is the modal cause of death due to accidents or violence for white males? Can the mean or median be calculated for the cause of death?
179
Causa de muerte Número Coche 30,500 Otros accidentes 27,500 Suicidio 20,234 Homicidio 8,342
180
La moda es accidentes de coche.
Distribución de las causas de muerte de hombres blancos debido a accidentes o a violencia. Causa de muerte Número Coche 30,500 Otros accidentes 27,500 Suicidio 20,234 Homicidio 8,342 Dado que se trata de datos nominales, la media y la mediana no tienen sentido. La moda es accidentes de coche.
181
Uso de la Estadística para sintetizar conjuntos de datos
3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
182
La varianza muestral
183
La varianza muestral y la desviación típica muestral
Aunque hasta ahora se han introducido estadísticos que miden la tendencia central de un conjunto de datos, todavía no se han considerado aquellos que miden su dispersión o variabilidad.
184
Desviación de un valor central
Una forma de medir la variabilidad de un conjunto de datos consiste en considerar las desviaciones de los datos de un valor central. El valor central que se utiliza más frecuentemente para este propósito es la media muestral.
185
Ejemplo Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
186
Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65
187
La media muestral es 7.4 meses La mediana muestral es 6 meses
8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65 La media muestral es 7.4 meses La mediana muestral es 6 meses La moda muestral es 3 meses
188
Media Mediana Moda
189
Desviación de un valor central
190
Desviación de un valor central
191
Desviación de un valor central
192
Desviación de un valor central
193
La varianza muestral
194
La varianza muestral
195
Calculo de la varianza muestral
196
Calculo de la varianza muestral
197
Propiedades de la varianza muestral
198
Propiedades de la varianza muestral
199
Propiedades de la varianza muestral
200
Propiedades de la varianza muestral
201
Calculo de la varianza muestral
202
Propiedades de la varianza muestral
203
Propiedades de la varianza muestral
204
Propiedades de la varianza muestral
205
Propiedades de la varianza muestral
206
Desviación típica muestral
207
Propiedades de la desviación típica muestral
208
Propiedades de la desviación típica muestral
209
Unidades de la varianza muestral y de la desviación típica muestral
210
Consumo (galones per cápita)
Ejemplo En la tabla siguiente se muestran los consumos per cápita de leche, en los años comprendidos entre 1983 y 1987, en Estados Unidos. Los datos provienen del Departamento de Agricultura de Estados Unidos, Consumo de alimentos, precios y gastos, anuario. Año Consumo (galones per cápita) 1983 26.3 1984 26.2 1985 26.4 1986 1987 25.9
211
Consumo (galones per cápita)
Año Consumo (galones per cápita) 1983 26.3 1984 26.2 1985 26.4 1986 1987 25.9
212
Consumo (galones per cápita)
Año Consumo (galones per cápita) 1983 26.3 1984 26.2 1985 26.4 1986 1987 25.9 TOTAL 131.1
213
Consumo (galones per cápita)
Año Consumo (galones per cápita) xi-x (xi-x)2 1983 26.3 0.08 0.0064 1984 26.2 -0.02 0.0004 1985 26.4 0.18 0.0324 1986 1987 25.9 -0.32 0.1024 0.148 4 0.037
214
Ejemplo Periodo Millones de dólares 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
215
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
216
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5
217
Inversión extranjera directa en México en el sector agropecuario (millones de dólares)
Periodo Agropecuario 1999 82.6 2000 91.6 2001 63.8 2002 93.0 2003 11.8 2004 21.9 2005 10.2 2006 22.1 2007 132.4 2008 32.5 Total 561.9
218
Inversión extranjera directa en México en el sector agropecuario (millones de dólares):
Periodo Monto Monto menos la media Al cuadrado 1999 82.6 26.4 697.49 2000 91.6 35.4 1,253.87 2001 63.8 7.6 57.91 2002 93.0 36.8 1,354.98 2003 11.8 -44.4 1,970.47 2004 21.9 -34.3 1,175.80 2005 10.2 -46.0 2,115.08 2006 22.1 -34.1 1,162.13 2007 132.4 76.2 5,807.96 2008 32.5 -23.7 561.22 56.2 16,156.91 9 1,795.21
219
Ejemplo Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes: 6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
220
Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65
221
La media muestral es 7.4 meses La mediana muestral es 6 meses
8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 La media muestral es 7.4 meses La mediana muestral es 6 meses La moda muestral es 3 meses Meses Pacientes 1 2 5 3 10 4 7 6 8 9 11 12 13 14 15 16 22 37 Total 65
222
Media Mediana Moda
223
M f Mxf M-<M> (M-<M>)^2 [(M-<M>)^2]xf 1 -6.42 41.16 2 5 10 -5.42 29.33 146.63 3 30 -4.42 19.50 194.96 4 7 28 -3.42 11.66 81.65 6 -2.42 5.83 35.00 -1.42 2.00 10.02 42 -0.42 0.17 1.04 8 24 0.58 0.34 1.03 9 63 1.58 2.51 17.58 20 2.58 6.68 13.36 11 33 3.58 12.85 38.55 12 4.58 21.02 42.04 13 5.58 31.19 14 6.58 43.36 86.71 15 7.58 57.53 16 32 8.58 73.70 147.39 22 14.58 212.71 37 29.58 875.25 482 2,033.78 65 64 7.42 31.78
224
La varianza es de 31.78 meses cuadrados.
6 7 8 5 9 37 4 10 22 2 3 13 16 15 11 14 1 12 La media muestral es 7.4 meses La mediana muestral es 6 meses La moda muestral es 3 meses La varianza es de meses cuadrados. La desviación típica es de 5.64 meses.
225
Media Desviación típica
226
Otros aspectos y medidas de la dispersión
227
Rango
228
Rango intercuartílico
229
Rango intercuartílico
230
Rango intercuartílico
231
Valores atípicos En las estadísticas, un valor atípico es una observación que es numéricamente distante del resto de los datos.
232
Valores atípicos Un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas.
233
Valores atípicos Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 ºC, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media.
234
Valores atípicos Un valor atípico es una observación que es numéricamente distante del resto de los datos. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra establecida.
235
Valores atípicos Tomando como referencia la diferencia entre el primer cuartil Q1 y el tercer cuartil Q3, o valor intercuartil, se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo).
236
Valores atípicos leves
237
Valores atípicos extremos
238
Los valores atípicos pueden tener como origen muchas causas anómalas.
239
Valores atípicos Los valores atípicos pueden tener como origen muchas causas anómalas. Un aparato físico para tomar mediciones puede haber sufrido una falla temporal. Puede haber habido un error en la transmisión de los datos o la transcripción. Puede haber habido un fraude o un boicot.
240
Valores atípicos Los valores atípicos surgen debido a los cambios en el comportamiento del sistema, al comportamiento fraudulento, a errores humanos, a errores instrumentales o simplemente por las desviaciones naturales en las poblaciones. La muestra puede haber sido contaminada con elementos de fuera de la población que se está examinando.
241
Valores atípicos Alternativamente, un valor atípico podría ser el resultado de un error en la teoría supuesta, y exigiría una investigación más exhaustiva por parte del investigador.
242
Valores atípicos Precaución: A menos que se pueda determinar que la desviación no es significativa, es poco aconsejable hacer caso omiso de la presencia de valores atípicos. Los valores extremos que no se puede explicar fácilmente exigen atención especial.
243
Los diagramas de caja
244
Los diagramas de caja Un diagrama de caja es una gráfica, basada en cuartiles, mediante el cual se visualiza un conjunto de datos.
245
Los diagramas de caja Es una gráfica que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución
246
Son útiles para ver la presencia de valores atípicos.
Los diagramas de caja Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica. Son útiles para ver la presencia de valores atípicos.
247
Los diagramas de caja Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
248
Los diagramas de caja 1. Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el intervalo intercuartil (IQR) 2. Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea. 3. Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos. 4. Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
249
Los diagramas de caja
250
Los diagramas de caja
251
Los diagramas de caja
252
Los diagramas de caja
253
Los diagramas de caja
254
Ejemplo Los datos siguientes representan la acidez de 40 precipitaciones de lluvia sucesivas en el estado de Minnesota. La acidez se mide en una escala de pH que varía de 1 (muy ácida) a 7 (neutra): 3.71, 4.23, , , , , , 5.04, 4.55, , , , , , 2.95, 4.70, , , , , , 3.88, 2.97, , , , , , 3.55, 3.86, , , , , , 4.39, 5.09, , ,
255
PH de la lluvia 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 Los datos siguientes representan la acidez de 40 precipitaciones de lluvia sucesivas en el estado de Minnesota. La acidez se mide en una escala de pH que varía de 1 (muy ácida) a 7 (neutra):
256
Media muestral 3.61 Suma de todos los datos 144.48
PH de la lluvia 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 Suma de todos los datos 144.48 Número total de datos 40 Media muestral 3.61
257
Cuadrados de las diferencias
PH de la lluvia PH de la lluvia2 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 Diferencias a la media 0.10 0.96 0.62 0.27 0.55 -0.64 -0.63 0.09 -0.38 -1.08 1.06 -0.94 0.38 0.51 1.43 1.19 0.94 -0.06 -0.37 0.25 -0.81 -1.10 -0.17 -0.28 -0.34 0.24 -0.95 -1.26 -0.66 -0.49 1.09 0.78 1.51 1.48 0.16 -0.23 -0.88 -1.23 -0.54 Cuadrados de las diferencias 0.0096 0.9178 0.3819 0.0718 0.3003 0.4122 0.3994 0.0077 0.1459 1.1707 1.1194 0.8874 0.1429 0.2581 2.0392 1.4113 0.8798 0.0038 0.1384 0.0615 0.6593 1.2144 0.0296 0.0795 0.1170 0.0566 0.9063 1.5926 0.4382 0.2421 1.1837 0.6053 2.2741 2.1845 0.0250 0.0538 0.7779 1.5178 0.2938 Media muestral 3.61
258
Cuadrados de las diferencias
PH de la lluvia PH de la lluvia2 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 Cuadrados de las diferencias 0.0096 0.9178 0.3819 0.0718 0.3003 0.4122 0.3994 0.0077 0.1459 1.1707 1.1194 0.8874 0.1429 0.2581 2.0392 1.4113 0.8798 0.0038 0.1384 0.0615 0.6593 1.2144 0.0296 0.0795 0.1170 0.0566 0.9063 1.5926 0.4382 0.2421 1.1837 0.6053 2.2741 2.1845 0.0250 0.0538 0.7779 1.5178 0.2938 Suma de las diferencias al cuadrado 25.25 Número total de datos 40 Varianza 0.65 Media muestral 3.61
259
Acomodando los datos de menor a mayor
PH de la lluvia 3.71 4.57 4.23 3.88 4.16 2.97 2.98 3.70 3.23 2.53 4.67 2.67 3.99 4.12 5.04 4.80 4.55 3.55 3.24 3.86 2.80 2.51 3.44 3.33 3.27 3.85 2.66 2.35 2.95 3.12 4.70 4.39 5.12 5.09 3.77 3.38 2.73 2.38 3.07 PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12 Acomodando los datos de menor a mayor
260
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
261
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
262
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
263
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
264
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
265
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
266
Media muestral Mediana muestral 2.35 3.55 2.38 3.70 2.51 3.71 2.53
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12 Media muestral Mediana muestral
267
Desviación típica Media muestral 2.35 3.55 2.38 3.70 2.51 3.71 2.53
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12 Desviación típica Media muestral
268
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12 IRQ Mediana muestral
270
PH de la lluvia PH de la lluvia2 2.35 3.55 2.38 3.70 2.51 3.71 2.53 3.77 2.66 3.85 2.67 3.86 2.73 3.88 2.80 3.99 2.95 4.12 2.97 4.16 2.98 4.23 3.07 4.39 3.12 4.55 4.57 3.23 4.67 3.24 4.70 3.27 4.80 3.33 5.04 3.38 5.09 3.44 5.12
271
Uso de la Estadística para sintetizar conjuntos de datos
3.1 Introducción 3.2 Media muestral 3.3 Mediana muestral 3.4 Moda muestral 3.5 Varianza muestral y desviación típica muestral 3.6 Conjuntos de datos normales y la regla empírica 3.7 Coeficiente de correlación muestral
272
Conjuntos de datos normales
En la práctica, la mayoría de los conjuntos de datos grandes que uno encuentra tienen histogramas similares en cuanto a la forma.
273
Conjuntos de datos normales
En la práctica, la mayoría de los conjuntos de datos grandes que uno encuentra tienen histogramas similares en cuanto a la forma. Por lo general, esos histogramas son simétricos con respecto al punto de máxima frecuencia y decrecen a ambos lados de ese máximo, siguiendo una forma acampanada.
274
Conjuntos de datos normales
En la práctica, la mayoría de los conjuntos de datos grandes que uno encuentra tienen histogramas similares en cuanto a la forma. Por lo general, esos histogramas son simétricos con respecto al punto de máxima frecuencia y decrecen a ambos lados de ese máximo siguiendo una forma acampanada Tales conjuntos de datos se dice que son normales. Sus histogramas se denominan histogramas normales.
275
Conjuntos de datos normales
Se dice que un conjunto de datos es normal si el histograma que lo describe tiene las propiedades siguientes: 1. La máxima altura se alcanza en el intervalo central. 2. Si nos movemos desde el intervalo central en cualquier dirección, la altura declina de tal modo que el histograma completo tiene una forma acampanada. 3. El histograma es simétrico con respecto al intervalo central.
276
Histograma de un conjunto de datos normal
Calificación Número de alumnos 1 2 4 3 7 12 5 23 6 8 9 10 TOTAL 75
277
Regla empírica para determinar si un conjunto de datos es normal
278
Regla empírica para determinar si un conjunto de datos es normal
279
Regla empírica para determinar si un conjunto de datos es normal
280
Regla empírica para determinar si un conjunto de datos es normal
281
Alturas y pesos de 60 individuos
Ejemplo Alturas y pesos de 60 individuos Índice Altura (m) Peso (kg) 1 1.67 51.3 16 1.81 63.6 31 1.77 46.9 46 1.74 58.5 2 1.82 62.0 17 1.69 58.8 32 54.8 47 1.70 66.1 3 1.76 69.5 18 64.9 33 1.72 57.1 48 53.0 4 1.73 64.6 19 62.6 34 1.79 61.8 49 65.2 5 65.5 20 1.71 56.3 35 50 1.75 61.3 6 56.0 21 64.1 36 51 1.78 66.7 7 64.2 22 37 64.4 52 57.4 8 23 1.61 44.4 38 55.0 53 57.0 9 51.0 24 39 59.6 54 52.5 10 25 40 1.63 48.4 55 1.66 56.1 11 57.9 26 58.9 41 56.5 56 67.1 12 51.8 27 1.80 64.7 42 56.7 57 70.8 13 28 59.7 43 63.4 58 58.1 14 55.6 29 49.2 44 62.4 59 54.2 15 52.7 30 51.7 45 1.68 48.3 60 60.8
283
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238
284
Alturas y pesos de los 60 individuos
Altura (m) Peso (kg) Media 1.73 58.76 Varianza 0.002 34.511 Desviación típica 0.046 5.875
286
Intervalo de clase Cantidad 1.600 a 1.625 1 1.625 a 1.650 1.650 a 1.675 5 1.675 a 1.700 9 1.700 a 1.725 15 1.725 a 1.750 10 1.750 a 1.775 8 1.775 a 1.800 7 1.800 a 1.825 4
289
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238 Altura (m) Media 1.73 Desviación típica 0.046
290
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238 Altura (m) Media 1.73 Desviación típica 0.046
291
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238 Altura (m) Media 1.73 Desviación típica 0.046
292
Altura (m) 1.6124 1.6988 1.7247 1.7659 1.6268 1.7048 1.7264 1.7693 1.6557 1.7051 1.7327 1.7730 1.6607 1.7071 1.7343 1.7735 1.6622 1.7102 1.7349 1.7758 1.6709 1.7144 1.7379 1.7784 1.6717 1.7154 1.7418 1.7827 1.6759 1.7176 1.7437 1.7848 1.6857 1.7178 1.7443 1.7883 1.6881 1.7185 1.7449 1.7931 1.6888 1.7195 1.7495 1.7994 1.6900 1.7218 1.7548 1.8057 1.6902 1.7223 1.7552 1.8093 1.6963 1.7225 1.7578 1.8165 1.6968 1.7230 1.7627 1.8238 Altura (m) Media 1.73 Desviación típica 0.046
294
Las alturas de los 60 hombres siguen una distribución aproximadamente normal.
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.