St. Edward’s University

St. Edward’s University
Slides Prepared by JOHN S. LOUCKS St. Edward’s University © South-Western /Thomson Learning

Capítulo 3 Estadística descriptiva II: Métodos numéricos (Pág. 62)
 Medidas de localización (ó de tendencia centra l) Medidas de variabilidad Medidas de localización relativa y detección valores atípicos Análisis exploratorio de datos Medidas de asociación entre dos variables Media ponderada y manejo de datos agrupados % x 

3.1. Medidas de localización (ó de tendencia central) (Pág. 65)
Media Mediana Moda Percentiles Cuartiles

Ejemplo: Apartamentos en renta
Abajo encontrara una muestra de los valores de renta mensuales para un departamento de una recamara. Los datos son una muestra de 70 apartamentos en una ciudad de los Estados Unidos. Los datos se presentan en orden ascendente.

Media (Pág. 65) La Media de un conjunto de datos es el promedio de todos los valores de los datos. Si los datos son de una muestra el promedio se denota por . Si los datos provienen de una población, el promedio se denota por m (mu).

Promedio

Mediana (Pág. 66) La mediana es la medida de localización mas usada para ingresos anuales y datos de valores de propiedad. Unas pocas valores de ingresos o valores de propiedad, extremadamente grandes, pueden inflar el promedio.

Mediana (Pág. 67) La mediana de un conjunto de datos es el valor en la mitad cuando los elementos de los datos están en orden ascendente. Para un numero impar de observaciones, la mediana es el valor de en medio (central) Para un numero para de observaciones, la mediana es el promedio de los dos valores centrales.

Mediana Mediana = percentil 50 i = (p/100)n = (50/100)70 = Promediando los valores de los datos 35to y 36to: Mediana = ( )/2 = 475

Moda (Pág. 68) La moda de u conjunto de datos es el valor que ocurre con mayor frecuencia. La mayor frecuencia puede ocurrir a dos o mas valores diferentes Si los datos tiene exactamente dos modas, el conjunto de datos es bimodal. Si los datos tienen mas de dos modas, los datso son multimodales.

Moda 450 ocurre más frecuentemente (7 times) Moda = 450

Percentiles (Pág. 68) Un percentil provee información de cómo los datos están dispersos sobre un intervalo desde el valor mas pequeño hasta el valor mas grande. Los exámenes de admisión para las universidades (en USA) es frecuente que se reporten en términos de percentiles.

Percentiles (Pág. 69) El p-èsimo percentil de un conjunto de datos es un valor tal que al menos p por ciento de los elementos toma este valor o menor y al menos (100 - p) por ciento de los elementos toman este valor o mas. Acomode los datos en orden ascendente. Calcule el índice i, la posición de el percentil p-esimo. i = (p/100)n Si i no es entero, redondee hacia arriba. El percentil p-esimo es el valor en la posición i . Si i es un entero, el percentil p-esimo es el promedio de los valores en las posiciones i e i+1

Percentil de 90 i = (p/100)n = (90/100)70 = 63 Promediando los valores de los datos 63ro y 64to : Percentil de 90 = ( )/2 = 585

Cuartiles (Pág. 70) Los Cuartiles son percentiles específicos Primer Cuartil = Percentil de 25 Segundo Cuartil = Percentil de 50 = Mediana Tercer Cuartil = Percentil de 75

Tercer Cuartil Tercer cuartil = Percentil de 75 i = (p/100)n = (75/100)70 = 52.5 = 53 Tercer cuartil = 525

3.2. Medidas de variabilidad (Pág. 74)
A menudo es deseable considera medidas de variabilidad (dispersión), asì como medidas de localización. Por ejemplo, al escoger a al proveedor A o proveedor B debemos considerar no solo el promedio del tiempo de entrega para cada uno, sino también la variabilidad en los tiempos de entrega para cada uno

3.2. Medidas de variabilidad (Pág. 74)
Rango Rango Intercuartil Varianza Desviación Estándar Coeficiente de Variación

Rango (Pág. 74) El rango de un conjunto de datos es la diferencia entre los valores más grande y más pequeño Es la medida mas simple de variabilidad Es muy sensitivo a los valores muy pequeños o muy grandes

Rango Rango = valor mayor – valor menor Rango = = 190

Rango Intercuartil (Pág. 74)
El rango intercuartil de un conjunto de datos es la diferencia entre el tercer cuartil y el primer cuartil. Es el rango donde se encuentra el 50% central de los datos. Elimina la sensibilidad de los valores de datos extremos.

Rango intercuartil 3er. Cuartil (Q3) = 525 1er. Cuartil (Q1) = 445 Rango intercuartil = Q3 - Q1 = = 80

Varianza (Pág. 75) La varianza es una medida de variabilidad que utiliza todos los datos. Esta basada en la diferencia entre los valores de cada observación (xi) y la media. (x para una muestra, m para una población).

Varianza (Pág. 76) La varianza es el promedio de las diferencias al cuadrado entre cada valor de dato y la media. Si el conjunto de datos es una muestra, la varianza se denota por s2. Si el conjunto de datos es una población, la varianza se denota por  2.

Desviación Estándar (Pág. 78)
La desviación estándar de un conjunto de datos es la raíz cuadrada positiva de la varianza. Se mide en las mismas unidades que los datos, haciéndola mas comparable, que la variancia, a la media. Si el conjunto de datos es una muestra, la desviación estándar se denota por s. Si el conjunto de datos es una muestra, la desviación estándar se denota por  (sigma).

Coeficiente de Variación (Pág. 78)
El coeficiente de variación indica que tan grande es la desviación estándar rn relación al promedio. Si un conjunto de datos es una muestra, el coeficiente de variación se calcula como sigue: Si un conjunto de datos es una población, el coeficiente de variación se calcula como sigue:

Varianza Desviación estándar Coeficiente de Variación

3.3. Medidas de localización relativa y detección de valores atípicos (Pág. 81)
Valores z Teorema de Chebyshev La Regla Empírica Detección de Valores Atípicos

Valores z (Pág. 81) El valor z es frecuentemente llamado el valor estandarizado Denota el numero de desviaciones estándar que el valor de un dato xi está de la media. Un dato con valor menor que la media de la muestra tendrá un valor de z menor que cero. Un dato con valor mayor que el promedio de la muestra tendrá un valor de z mayor que cero Un dato con valor igual que el promedio de la muestra tendrá un valor de z igual a cero

Valro z del menor valor (425) Valores estandarizados para Apartamentos en renta

Teorema de Chebyshev (Pág. 82)
Al menos (1 - 1/k2) de los elementos en un conjunto de datos estará dentro de las k desviaciones estándar del promedio donde k es cualquier valor mayor que 1. Al menos 75% de los elementos deben estar entre k = 2 desviaciones estándar de la media. Al menos 89% de los elementos deben estar entre k = 3 desviaciones estándar de la media. Al menos 94% de los elementos deben estar entre k = 4 desviaciones estándar de la media.

Teorema de Chebyshev’s Theorem Sea k = 1.5 con = y s = 54.74 al menos (1 - 1/(1.5)2) = = 0.56 o 56% de los costos de renta deben estar entre - k(s) = (54.74) = 409 y + k(s) = (54.74) = 573

Teorema de Chebyshev (continúa) realmente, 86% de los costos de renta están entre 409 y 573.

La Regla Empírica (Pág. 83)
Para los datos que tienen una distribución tipo campana: Aproximadamente 68% de los valores de los datos estarán entre una desviación estándar de la media

Para los datos que tienen una distribución tipo campana: Aproximadamente 95% de los valores de los datos estarán entre dos desviaciones estándar de la media

Para los datos que tienen una distribución tipo campana: Casi todos (99.7%) los elementos estarán entre tres desviaciones estándar de la media

Regla empírica Intervalo % in Intervalo Entre +/- 1s to /70 = 69% Entre +/- 2s to /70 = 97% Entre +/- 3s to /70 = 100%

Detección de Valores Atípicos (Pág. 84)
Un valor atípico es un valor inusualmente muy pequeño o muy grande para el conjunto de datos. Un dato con valor de z menor que -3 o mas grande que +3 puede ser considerado como un valor atípico. Puede ser un valor de dato registrado incorrectamente. Puede ser un dato Puede ser un valor de dato que fue incorrectamente incluido en el conjunto de datos. Puede ser un valor de dato correctamente registrado y que pertenece al conjunto de datos!!!

Detectando valores atípicos Los valores extremos más atípicos son y 2.27. Usando |z| > 3 como el criterio para un dato atípico, no hay valores atípicos en este conjunto de datos Valores estandarizados para Apartamentos en Renta

3.4. Análisis exploratorio de datos (Pág. 86)
Resumen de cinco datos Diagrama de caja

Resumen de cinco datos (Pág. 87)
Valor mínimo Primer cuartil (Q1) Mediana (Q2) Tercer cuartil (Q3) Valor máximo

Resumen de cinco datos Valor mínimo = 425 Primer cuartil (Q1) = 450 Mediana (Q2) = 475 Tercer cuartil (Q3) = 525 Valor máximo = 615

Diagrama de caja (Pág. 87) Una caja se dibuja con sus extremos localizados en el primer y tercer cuartil. Una línea es dibujada en la caja en la localización de la mediana. Los límites son localizados (no dibujados) usando el rango intercuartil (RIC) El límite menor se localiza a 1.5(RIC) abajo de Q1. El límite mayor se localiza 1.5(RIC) arriba de Q3. Los datos fuera de estos límites son considerados atípicos … continúa

Diagrama de caja (Pág. 87) (Continúa)
Bigotes (líneas punteadas) se dibujan desde los extremos de la caja a los valores de los datos menor y mas grandes dentro de los limites. La localización de cada valor atípico es mostrada con el símbolo *.

Diagrama de caja Limite menor: Q (IQR) = (75) = 337.5 Limite mayor: Q (IQR) = (75) = 637.5 No hay valores atípicos. 375 400 425 450 475 500 525 550 575 600 625

3.5. Medidas de Asociación Entre Dos variables (Pág. 91)
Covarianza Coeficiente de Correlación

Covarianza (Pág. 91) La covarianza es una medida de la asociación lineal entre dos variables. Valores positivos indican una relación positiva. Valores negativos indican una relación negativa

Covarianza (Pág. 91) Si el conjunto de datos es una muestra, la covarianza se denota por sxy. Si el conjunto de datos es una población, la covarianza se denota por

Coeficiente de correlación (Pág. 95)
El coeficiente puede tomar valores entre -1 y +1. Valores cercanos a -1 indican un relación lineal negativa fuerte. Valores cercanos a +1 indican un relación lineal positiva fuerte. Si el conjunto de datos es una muestra, el coeficiente es rxy. Si el conjunto de datos es una población, el coeficiente es .

3.6. Media ponderada y manejo de datos agrupados (Pág. 100)
Media para datos agrupados Varianza para datos agrupados Desviación estándar para datos agrupados

Media ponderada (Pág. 101) Cuando la media es calculada dándole a cada valor de dato un peso que refleja su importancia, es referido como una media ponderada. En el calculo de promedio de calificaciones (tipo USA), el peso es el numero de créditos obtenidos para cada grado. Cuando los valores de los datos varían en importancia, el analista debe escoger el peso que refleje la importancia de cada valor.

Media ponderada (Pág. 101) x =  wi xi  wi donde:
xi = valor de observación i wi = peso de observaciòn i

Datos agrupados (Pág. 102) El calculo de la media pondera puede ser usado para obtener aproximaciones al promedio, varianza, y desviación estándar de datos agrupados. Para calcular la media ponderada, tratamos el punto medio de cada clase como si fuera la media de todos los elementos en la clase. Calculamos una media ponderada de los puntos medios utilizando las frecuencias de la clase como pesos. Similarmente, al calcular la varianza y desviación estándar las frecuencias de las clases son utilizadas como pesos.

Media para datos agrupados (Pág. 102)
Muestra Población donde: fi = Frecuencia de la clase i Mi = punto medio de la clase i

Abajo está la muestra de las rentas mensuales para departamentos de una recamara presentados aquí como datos agrupados en la forma de distribucion de frecuencias Renta ($) Frecuencia 8 17 12 7 4 2 6

Media para datos agrupados Esta aproximación difiere en $2.41 de la media real de la muestra de $ Renta ($) f i M 8 429.5 3436.0 17 449.5 7641.5 12 469.5 5634.0 489.5 3916.0 7 509.5 3566.5 4 529.5 2118.0 2 549.5 1099.0 569.5 2278.0 589.5 1179.0 6 609.5 3657.0 Total 70

Varianza para datos agrupados (Pág. 103)
Muestra Población

Varianza para datos agrupados Desviación Estándar para datos agrupados Esta aproximación difiere en solo $.20 de la desviación estándar de $54.74.

Fin del capítulo 3

St. Edward’s University

Presentaciones similares

Presentación del tema: "St. Edward’s University"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

St. Edward’s University

Presentaciones similares

Presentación del tema: "St. Edward’s University"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback