La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Describiendo los Datos, Usando Medidas Numéricas

Presentaciones similares


Presentación del tema: "Describiendo los Datos, Usando Medidas Numéricas"— Transcripción de la presentación:

1 Describiendo los Datos, Usando Medidas Numéricas

2 Datos en Información Descripción Gráfica, diagramas y tablas
Descripción numérica de los datos ¿Cómo compara la duración de los neumáticos de un fabricante A y la de un fabricante B? En forma gráfica: Tomar una muestra y producir los histogramas respectivos. Se requiere más: Medidas numéricas que resuman la información Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

3 Objetivos Calcular e interpretar la media, mediana, y moda para un conjunto de datos Calcular el rango, varianza, y desviación estándar y saber qué significan estos valores Construír e interpretar un gráfico de caja y bigote Calcular y explicar el coeficiente de variación y valor estandarizado (z)

4 Técnicas Descriptivas
Describiendo Numéricamente los Datos Centro y Ubicación Otras Medidas de Ubicación Variación Rango Media Percentiles Rango Intercuartílico Mediana Cuartiles Moda Varianza Media Ponderada Desviación Estándar Coeficiente de Variación

5 Medidas de Centro y Ubicación
Media Mediana Moda Media Ponderada Punto medio Punto de mayor frecuencia Punto de equilibrio

6 Media (Promedio Aritmético)
La medida más común de tendencia central Media = Suma de valores divididos por el número de valores Afectado por valores extremos (atípicos) Media = 3 Media = 4

7 Media (Promedio Aritmético)
(continuación) La Media es el promedio aritmético de los valores de los datos Media poblacional Media muestral N = Tamaño de la Población n = Tamaño de la Muestra

8 Mediana En un arreglo ordenado (de menor a mayor), la mediana es el número “medio”, es decir, el número que parte numéricamente a la distribución por la mitad 50% de los datos están arriba de la mediana, 50% están debajo Se representa como Md La mediana no está afectada por valores extremos Mediana = 3 Mediana = 3

9 Mediana (continuación) Para obtener la mediana, ordenar los n valores (datos) de menor a mayor. El conjunto de datos ordenados es llamado arreglo ordenado de datos Encontrar el valor en la ubicación i = (1/2)n La ima ubicación es el Punto de la Mediana Si i no es un entero, redondear hacia arriba Si i es un entero, la mediana es el promedio de los valores en las ubicaciones “i ” e “i + 1”

10 Arreglo ordenado de datos:
Mediana: Ejemplo Arreglo ordenado de datos: 4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24 Observe que n = 13 Busque la ubicación = (1/2)n: i = (1/2)(13) = 6.5 Desde que 6.5 no es un entero, redondea hacia arriba (7) La mediana es el valor en la 7ma ubicación: Md = 12

11 Forma de una Distribución
Describir cómo los datos están distribuídos Simetrica or asimétrica A mayor diferencia entre la media y la mediana, mayor es la asimetría de la distribución Asimétrica a la Izquierda Asimétrica a la Derecha Simétrica Media < Mediana Media = Mediana Mediana < Media (Cola larga hacia la izquierda) (Cola larga hacia la derecha)

12 Arreglo ordenado de datos:
Mediana vs Media Arreglo ordenado de datos: 4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24 Se tenía: Md = 12 De otro lado, se puede verificar que la media es: Se tiene un sesgo hacia la derecha. Considere que los datos corresponden a niveles de salarios mensuales en miles de dólares. Suponga que en lugar del salario de 24 se tiene 200. La media pasa a ser 26.5, más del doble, por la variación de un solo salario. Aún más la media es más grande que todos los valores, excepto el más alto. Sin embargo, se puede verificar que este cambio no afecta la mediana que sigue siendo 12. La mediana no se ve afectada por valores extremos, a diferencia de la media.

13 Moda Una medida de ubicación El valor que ocurre con mayor frecuencia
No está afectado por valores extremos Usado para datos numéricos y categóricos Podría no haber moda Podría haber varias modas (2 modas = bimodal) Moda = 5 No hay moda

14 Moda: Ejemplo Una pizería está rediseñando su comedor, para lo cual está interesada en los tamaños de grupos más frecuentes. Toma una muestra de 20 grupos, en los cuales la cantidad de individuos por grupo fue: {2, 4, 1, 2, 3, 2, 4, 2, 3, 6, 8, 4, 2, 1, 7, 4, 2, 4, 4, 3} Se elaboró una distribución de frecuencias: Se determinó los valores que ocurren con mayor frecuencia, en este caso se tuvo dos modas: 2 y 4, cada una con una frecuencia de 6 casos. Frecuencia 2 6 3 1 Ind.x Grupo 4 5 7 8 Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

15 Media Ponderada Usado cuando los valores son agrupados por frecuencia o importancia relativa Ejemplo: Muestra de 26 proyectos de reparación Media Ponderada de Días para Culminar Días para Culminar Frecuencia 5 4 6 12 7 8 2

16 Ejemplo Cinco casas en una colina cerca a la playa
Precios de las casas (Dólares): ,000, , , , ,000

17 Estadísticos de Resumen
Precios de las casas (Dólares): ,000,000 500, , , ,000 Suma 3,000,000 Media: ($ 3,000,000/5) m = $ 600,000 Mediana: Valor medio de los datos ordenados Md = $ 300,000 Moda: Valor de mayor frecuencia Moda = $ 100,000

18 Qué medida de ubicación es la “mejor”?
La media es generalmente usada, a menos que existan valores extremos (atípicos) Luego la mediana es a menudo usada, desde que la mediana no es sensible a valores extremos Ejemplo: La mediana de los precios de las casas podrían ser reportados para una región – menos sensibles a valores extremos La moda es buena para determinar lo más probable a ocurrir

19 Nivel de medida de los datos Ventajas y desventajas
Resumen Tipo de medida central Método de cálculo Nivel de medida de los datos Ventajas y desventajas Media Suma de valores dividida entre número de valores Ratio Intervalo Centro numérico de los datos. Suma de desviaciones respecto de la media es cero. Sensible a valores extremos Mediana Valor medio de la data ordenada de menor a mayor Ordinal No sensibles a valores extremos. Calculado solo en base a posición media de los valores. No usa la información total de los datos. Moda Valor de mayor frecuencia de ocurrencia en la data Nominal Puede no reflejar el centro de los datos. Puede no existir. Pueden ser múltiples. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

20 Percentiles y Cuartiles
En algunas aplicaciones se está interesado en describir la locación de los datos en términos distintos a los de sus centros. Ejemplo: La nota obtenida en el curso a qué percentil de las notas del grupo corresponde. Si esta corresponde al percentile 90th, se tiene que la nota fue igual o superior al 90% de las notas registradas. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

21 Otras Medidas de Ubicación
Percentiles Cuartiles El pmo percentil en un arreglo ordenado de datos: p% de los datos es menor o igual que este valor (100 – p)% de los datos es mayor que o igual a este valor (donde 0 ≤ p ≤ 100) 1er cuartil = 25to percentil 2do cuartil = 50mo percentil Mediana 3er cuartil = 75to percentil

22 Índice de Ubicación del Percentil
Percentiles El pmo percentil en un arreglo ordenado de n valores es el valor en la ubicación ima, donde Si i no es un entero, redondear hacia arriba Índice de Ubicación del Percentil Si i es un entero, considerar el promedio del imo y del (i+1)mo valor. Ejemplo: Encontrar el 60mo percentil en un arreglo ordenado de 19 valores. Usar el valor de ubicación i = 12do

23 Percentiles: Ejemplo Salarios mensuales en miles de una muestra de 30 ejecutivos: Ordenados de menor a mayor: Determinación del índice de locación percentil i i = (p/100)*n = (80/100)*30 = 24 Para i = 24 e i = 25 se tienen los valores 20.5 y El percentil 80th será: ( )/2 = 13.5 8.6 16.2 21.4 21.0 23.7 4.1 13.8 20.5 9.6 11.5 6.5 5.8 10.1 11.1 4.4 12.2 13.0 15.7 13.2 13.4 13.1 21.7 14.6 14.1 12.4 24.9 19.3 26.9 11.7 4.1 4.4 5.8 6.5 8.6 9.6 10.1 11.1 11.5 11.7 12.2 12.4 13.0 13.1 13.2 13.4 13.5 13.8 14.1 14.6 15.7 16.2 19.3 20.5 21.0 21.4 21.7 23.7 24.9 26.9 Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

24 Cuartiles Los cuartiles dividen a los datos ordenados en cuatro grupos iguales: Notar que el segundo cuartil (el 50mo percentil), Q2, es la mediana IQR (rango intercuartílico) = Q3 – Q1 25% 25% 25% 25% Q1 Q2 Q3

25 Cuartiles 25 Interpretación: El 25% de los datos es menor que 13
Ejemplo: Encontrar el primer cuartil Datos muestrales en un arreglo ordenado: (n = 9) Q1 = 25to percentil. Encontrar i : i = (9) = 2.25 Entonces redondear hacia arriba y usar el valor en la 3ra ubicación: Q1 = 13 25 100 Redondear a 3 dado que no es un entero Interpretación: El 25% de los datos es menor que 13

26 Gráfico de Caja y Bigote
Herramienta gráfica de descripción de datos cuantitativos, muestra: La mediana y los cuartiles Valores átipicos Valores atípicos valores inusualmente bajos o altos en relación al resto de valores de la data. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

27 Gráfico de Caja y Bigote
Es una presentación gráfica de los datos usando una “caja” central y “bigotes” extendidos Ejemplo: 25% % % % * * Valores “Valor más pequeño” er Mediana 3er “Valor más grande” Atípicos (Límite Inferior) Cuartil Cuartil (Límite Superior)

28 Construcción de un Gráfico de Caja y Bigote
* * Valores “Valor más pequeño” er Mediana 3er “Valor más grande” Atípicos (Límite Inferior) Cuartil Cuartil (Límite Superior) El límite inferior es Q1 – 1.5 (Q3 – Q1) El límite superior es Q (Q3 – Q1) Dibujar una caja desde Q1 a Q3 Trazar una línea vertical en la mediana Trazar líneas (bigotes) hacia el valor más pequeño y más grande (dentro de los límites calculados) Identificar los valores atípicos fuera de los límites calculados

29 Forma de un Gráfico de Caja y Bigote
La caja y la línea central están centrados entre los valores extremos si los datos son simétricos respecto a la mediana Un Gráfico de Caja y Bigote puede ser mostrado en un formato vertical u horizontal

30 Forma de una Distribución y de su Gráfico de Caja y Bigote
Asimétrica a la Izquierda Asimétrica a la Derecha Simétrica Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

31 Construcción de un Gráfico de Caja y Bigote
Ordenar los valores de menor a mayor Encontrar Q1, Q2, Q3 Dibujar la caja tal que los límites sean Q1 y Q3 Trazar una línea vertical en la mediana Calcular el rango intercuartílico (Q3 – Q1) Trazar líneas (bigotes) hacia el valor más pequeño y más grande (dentro de los límites calculados) Identificar los valores atípicos con un asterisco (*)

32 Gráfico de Caja y Bigote: Ejemplo
Acontinuación se presenta un arreglo ordenado de datos y su gráfico de caja y bigote: Estos datos son asimétricos a la derecha (ver gráfico) Min Q Q Q Max * 27 está arriba del límite superior, por lo tanto, es un valor atípico Límite superior = Q (Q3 – Q1) = (6 – 2) = 12

33 Medidas de Variación El presidente de la corporación solicita al gerente de producción información sobre la producción de los últimos 5 días de las plantas A y B. Se registran los siguientes resultados: El gerente de producción elabora un resumen el cual presente al presidente: En base a la información proporcionada, ¿Qué puede concluir el presidente? ¿Cuál es la realidad? A 15 25 35 20 30 B 23 26 24 27 Media Mediana A 25 B Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

34 Coeficiente de Variación
Medidas de Variación Variación Rango Varianza Desviación Estándar Coeficiente de Variación Rango Intercuartílico Varianza Poblacional Desviación Estándar Poblacional Varianza Muestral Desviación Estándar Muestral

35 Variación Las medidas de variación dan información sobre la dispersión o variabilidad de los datos Valor pequeño Menos variación Valor grande Más variación Mismo centro, diferente variación

36 Rango = xmáximo – xmínimo
Medida más simple de variación Diferencia entre la observación más grande y la más pequeña: Rango = xmáximo – xmínimo Ejemplo: Rango = = 13

37 Desventajas del Rango Ignora la distribución de los datos
Sensible a los valores atípicos Rango = = 5 Rango = = 5 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Rango = = 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Rango = = 119

38 Rango Intercuartílico
Usando el rango intercuartílico se puede eliminar algunos problemas de valores atípicos No cambiará incluso si los valores más pequeños y más grandes tomasen valores más extremos Rango intercuartílico =Q3 – Q1

39 Rango Intercuartílico: Ejemplo
Mediana (Q2) X X Q1 Q3 máximo mínimo 25% % % % Rango intercuartílico: 57 – 30 = 27

40 Medidas de Variación Rango Considera solo dos valores de la data Sensible a valores extremos Intercuartílico Elimina la influencia de los valores extremos Varianza Considera todos los valores de la data Unidades cuadráticas de los datos DS Considera todos los valores de la data Unidades iguales a los de la data Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

41 Varianza Promedio del cuadrado de las desviaciones de los valores respecto a la media (unidades cuadráticas) Varianza poblacional: Varianza muestral:

42 Desviación Estándar Medida de variación más usada
Muestra la variación respecto a la media Tiene la misma unidad de los datos Desviación estándar poblacional: Desviación estándar muestral:

43 Desviación Estándar Muestral: Ejemplo
Datos muestrales (Xi) : n = Media = x = 16

44 Comparación de Desviaciones Estándar
Misma media pero diferentes desviaciones estándar: Datos A Media = 15.5 s = 3.338 Datos B Media = 15.5 s = Datos C Media = 15.5 s = 4.57

45 ¿Qué datos tienen mayor variabilidad? Datos A: SA = 100 Datos B: SB = 1
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

46 ¿Qué datos tienen mayor variabilidad
¿Qué datos tienen mayor variabilidad? Datos A: SA = 100 MediaA = 1,000 Datos B: SB = 1 MediaB = 0.01 Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

47 Media y Desviación Estándar Interacción entre media y la DS en la descripción de los datos y la generación de información. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

48 Coeficiente de Variación
Muestra la variación relativa a la media. Expresado siempre en porcentaje (%). Especialmente relevante para comparar la variabilidad de dos distribuciones con distintas medias. Usado para comparar dos o más conjuntos de datos medidos en diferentes unidades o niveles Población Muestra

49 Comparación de Coeficientes de Variación
Acción A: Precio promedio del año pasado = $50 Desviación estándar = $5 Acción B: Precio promedio del año pasado = $100 Ambas acciones tienen la misma desviación estándar, pero la Acción B es menos variable relativo a su precio

50 Regla Empírica Si la distribución de los datos tiene forma de campana, entonces el intervalo ( ) contiene alrededor del 68% de los valores de la población: 68% La media y la mediana son iguales

51 Regla Empírica contiene alrededor del 95% de los
valores de la población contiene alrededor del 99.7% de los 95% 99.7%

52 Teorema de Tchebysheff
Sin considerar como esten distribuidos los datos, al menos (1 - 1/k2) de los valores caerán dentro del intervalo μ ± kσ Ejemplos: (1 - 1/12) = 0% ……..... k=1 (μ ± 1σ) (1 - 1/22) = 75% … k=2 (μ ± 2σ) (1 - 1/32) = 89% ………. k=3 (μ ± 3σ) Al menos Dentro

53 Valores Estandarizados
Un valor estandarizado se refiere al número de desviaciones estándar en que el valor difiere de su media. Un valor estandarizado también es conocido como valor z. Pueden ser usados para comparar conjuntos de datos, al menos de intervalo, incluso de escala distinta. Serán vistos en mayor detalle en los próximos capítulos.

54 Valores Estandarizados Poblacionales
Donde: x = valor original del dato μ = media poblacional σ = desviación estándar poblacional z = valor estandarizado (número de desviaciones estándar en que x difiere de μ)

55 Valores Estandarizados Muestrales
Donde: x = valor original del dato x = media muestral s = desviación estándar muestral z = valor estandarizado (número de desviaciones estándar en que x difiere de x )

56 Valor Estandarizado: Ejemplo
Los puntajes de CI en una población tienen distribución en forma de campana con media μ = 100 y desviación estándar σ = 15 Encontrar el valor estandarizado (z-score) para una persona con un CI de 121. Alguien con CI de 121 está a 1.4 desviaciones estándar sobre la media Respuesta:

57 Usando Excel Estadísticas Descriptivas son fáciles de obtener de Excel
Seleccione: Datos / Análisis de datos / Estadística descriptiva Diligencie el cuadro de diálogo

58 Usando Excel (continuación) Seleccionar: Datos / Análisis de datos / Estadística descriptiva

59 Usando Excel Diligenciar el cuadro de diálogo
(continuación) Diligenciar el cuadro de diálogo Seleccionar “Resumen de estadísticas” Click en “Aceptar”

60 Resultado del Excel Estadísticas descriptivas de los precios de las casas (usando Excel): Precios de las casas: $2,000,000 500, , , ,000

61 Resumen Se describió medidas de centro y ubicación
Media, mediana, moda, media ponderada Se discutió percentiles y cuartiles Se creó gráficos de caja y bigote Se ilustró formas de distribución Simétrica y asimétrica

62 Resumen Se describió medidas de variación
(continuación) Se describió medidas de variación Rango, rango intercuartílico, varianza, desviación estándar, coeficiente de variación Se discutió el teorema de Tchebysheff Se calculó valores estandarizados


Descargar ppt "Describiendo los Datos, Usando Medidas Numéricas"

Presentaciones similares


Anuncios Google