Describiendo los Datos, Usando Medidas Numéricas

Slides:



Advertisements
Presentaciones similares
Lic. Cristian R. Arroyo López
Advertisements

Lic. Cristian R. Arroyo López
ESTADÍSTICA DESCRIPTIVA
Descripción de los datos: medidas de dispersión
Medidas de Posición Central:
Capítulo 4 Otras medidas descriptivas
Capítulo 3 Descripción de datos, medidas de tendencia central
Capítulo 4: Medidas de dispersión
Capítulo 3: Medidas de posición
FRANCISCO JAVIER RODRÍGUEZ
Rango y Rango intercuartil
Introducción Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que junto a una medida que indique el valor alrededor del cual.
Curso de Estadística Básica
Medidas de Dispersión Estadística E.S.O.
ESTADISTICA LABORAL Relaciones Laborales Facultad de Derecho 2008
Bioestadística III. Escala cuantitativa. n Cuando la escala de medición es cuantitativa, y el análisis requiere un solo valor numérico que resuma alguna.
MEDIDAS DE TENDENCIA CENTRAL
Estadística descriptiva
Estadística Descriptiva
ANALISIS DE DATOS CON EXCEL
REPASO BLOQUE I: TEMAS 1-4
Mt. Martín Moreyra Navarrete.
DEPARTAMENTO DE MATEMÁTICA APLICADA
Estadística Descriptiva continuación
Gerenciamiento Técnico de Proyectos
Medidas de Dispersión.
Tema 2: Parámetros Estadísticos
Probabilidad y Estadística
Medidas de resumen.
ESTADÍSTICAS DESCRIPTIVA
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Coeficiente de Variación
Fundamentos Matemáticos Medidas de tendencia central
Laboratorio de Estadística administrativa
Resumen y descripci ó n de datos num é ricos Estad í stica Capítulo 3.2.
Universidad Americana Medidas de tendencia central Resumen elaborado por: Lic. Maryan Balmaceda V Economista - Consultor.
Tratamiento de datos y azar
TABLAS DE FRECUENCIAS Una vez recopilados, tendremos un conjunto de datos que será necesario organizar para extraer información. Lo primero que se hace.
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
ESTADISTICA PARA RELACIONES LABORALES
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
MEDIDAS DE FORMA DE LA DISTRIBUCION
Describir una variable numérica
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
Descripción de los datos: medidas de dispersión
Estadística Aplicada a la Sesión 04: Medidas de Posición
1-1 Capítulo dos Descripción de los datos: distribuciones de frecuencias y representaciones gráficas OBJETIVOS Al terminar este capítulo podrá: UNO Organizar.
Descripción de los datos: medidas de ubicación
PARÁMETROS ESTADÍSTICOS
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
Estadística Básica Conceptos & Aplicaciones
Métodos Cuantitativos
Análisis de los Datos Cuantitativos
Sesión 8 Tema: Estadística descriptiva Objetivo:
Medidas numéricas descriptivas
Medidas de posición y de dispersión
Estadística Reporte Ejecutivo
MEDIDAS DE TENDENCIA CENTRAL
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Características de las distribuciones estadísticas
Coeficiente de variación
DIPLOMADO DE POSTGRADO
UNIVERSIDAD DE COSTA RICA Sistema de Estudios de Posgrado Escuela de Salud Pública I Ciclo lectivo 2003 Epidemiología – (SP – 2216) Profesora: Carmen.
Estadística descriptiva
Medidas de posición y dispersión IV medio
Estadística y probabilidad aplicada a los negocios
Medidas de tendencia central
Medidas de tendencia central o posición
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística.
Transcripción de la presentación:

Describiendo los Datos, Usando Medidas Numéricas

Datos en Información Descripción Gráfica, diagramas y tablas Descripción numérica de los datos ¿Cómo compara la duración de los neumáticos de un fabricante A y la de un fabricante B? En forma gráfica: Tomar una muestra y producir los histogramas respectivos. Se requiere más: Medidas numéricas que resuman la información Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Objetivos Calcular e interpretar la media, mediana, y moda para un conjunto de datos Calcular el rango, varianza, y desviación estándar y saber qué significan estos valores Construír e interpretar un gráfico de caja y bigote Calcular y explicar el coeficiente de variación y valor estandarizado (z)

Técnicas Descriptivas Describiendo Numéricamente los Datos Centro y Ubicación Otras Medidas de Ubicación Variación Rango Media Percentiles Rango Intercuartílico Mediana Cuartiles Moda Varianza Media Ponderada Desviación Estándar Coeficiente de Variación

Medidas de Centro y Ubicación Media Mediana Moda Media Ponderada Punto medio Punto de mayor frecuencia Punto de equilibrio

Media (Promedio Aritmético) La medida más común de tendencia central Media = Suma de valores divididos por el número de valores Afectado por valores extremos (atípicos) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Media = 3 Media = 4

Media (Promedio Aritmético) (continuación) La Media es el promedio aritmético de los valores de los datos Media poblacional Media muestral N = Tamaño de la Población n = Tamaño de la Muestra

Mediana En un arreglo ordenado (de menor a mayor), la mediana es el número “medio”, es decir, el número que parte numéricamente a la distribución por la mitad 50% de los datos están arriba de la mediana, 50% están debajo Se representa como Md La mediana no está afectada por valores extremos 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Mediana = 3 Mediana = 3

Mediana (continuación) Para obtener la mediana, ordenar los n valores (datos) de menor a mayor. El conjunto de datos ordenados es llamado arreglo ordenado de datos Encontrar el valor en la ubicación i = (1/2)n La ima ubicación es el Punto de la Mediana Si i no es un entero, redondear hacia arriba Si i es un entero, la mediana es el promedio de los valores en las ubicaciones “i ” e “i + 1”

Arreglo ordenado de datos: Mediana: Ejemplo Arreglo ordenado de datos: 4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24 Observe que n = 13 Busque la ubicación = (1/2)n: i = (1/2)(13) = 6.5 Desde que 6.5 no es un entero, redondea hacia arriba (7) La mediana es el valor en la 7ma ubicación: Md = 12

Forma de una Distribución Describir cómo los datos están distribuídos Simetrica or asimétrica A mayor diferencia entre la media y la mediana, mayor es la asimetría de la distribución Asimétrica a la Izquierda Asimétrica a la Derecha Simétrica Media < Mediana Media = Mediana Mediana < Media (Cola larga hacia la izquierda) (Cola larga hacia la derecha)

Arreglo ordenado de datos: Mediana vs Media Arreglo ordenado de datos: 4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24 Se tenía: Md = 12 De otro lado, se puede verificar que la media es: 12.9. Se tiene un sesgo hacia la derecha. Considere que los datos corresponden a niveles de salarios mensuales en miles de dólares. Suponga que en lugar del salario de 24 se tiene 200. La media pasa a ser 26.5, más del doble, por la variación de un solo salario. Aún más la media es más grande que todos los valores, excepto el más alto. Sin embargo, se puede verificar que este cambio no afecta la mediana que sigue siendo 12. La mediana no se ve afectada por valores extremos, a diferencia de la media.

Moda Una medida de ubicación El valor que ocurre con mayor frecuencia No está afectado por valores extremos Usado para datos numéricos y categóricos Podría no haber moda Podría haber varias modas (2 modas = bimodal) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 Moda = 5 No hay moda

Moda: Ejemplo Una pizería está rediseñando su comedor, para lo cual está interesada en los tamaños de grupos más frecuentes. Toma una muestra de 20 grupos, en los cuales la cantidad de individuos por grupo fue: {2, 4, 1, 2, 3, 2, 4, 2, 3, 6, 8, 4, 2, 1, 7, 4, 2, 4, 4, 3} Se elaboró una distribución de frecuencias: Se determinó los valores que ocurren con mayor frecuencia, en este caso se tuvo dos modas: 2 y 4, cada una con una frecuencia de 6 casos. Frecuencia 2 6 3 1 Ind.x Grupo 4 5 7 8 Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Media Ponderada Usado cuando los valores son agrupados por frecuencia o importancia relativa Ejemplo: Muestra de 26 proyectos de reparación Media Ponderada de Días para Culminar Días para Culminar Frecuencia 5 4 6 12 7 8 2

Ejemplo Cinco casas en una colina cerca a la playa Precios de las casas (Dólares): 2,000,000 500,000 300,000 100,000 100,000

Estadísticos de Resumen Precios de las casas (Dólares): 2,000,000 500,000 300,000 100,000 100,000 Suma 3,000,000 Media: ($ 3,000,000/5) m = $ 600,000 Mediana: Valor medio de los datos ordenados Md = $ 300,000 Moda: Valor de mayor frecuencia Moda = $ 100,000

Qué medida de ubicación es la “mejor”? La media es generalmente usada, a menos que existan valores extremos (atípicos) Luego la mediana es a menudo usada, desde que la mediana no es sensible a valores extremos Ejemplo: La mediana de los precios de las casas podrían ser reportados para una región – menos sensibles a valores extremos La moda es buena para determinar lo más probable a ocurrir

Nivel de medida de los datos Ventajas y desventajas Resumen Tipo de medida central Método de cálculo Nivel de medida de los datos Ventajas y desventajas Media Suma de valores dividida entre número de valores Ratio Intervalo Centro numérico de los datos. Suma de desviaciones respecto de la media es cero. Sensible a valores extremos Mediana Valor medio de la data ordenada de menor a mayor Ordinal No sensibles a valores extremos. Calculado solo en base a posición media de los valores. No usa la información total de los datos. Moda Valor de mayor frecuencia de ocurrencia en la data Nominal Puede no reflejar el centro de los datos. Puede no existir. Pueden ser múltiples. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Percentiles y Cuartiles En algunas aplicaciones se está interesado en describir la locación de los datos en términos distintos a los de sus centros. Ejemplo: La nota obtenida en el curso a qué percentil de las notas del grupo corresponde. Si esta corresponde al percentile 90th, se tiene que la nota fue igual o superior al 90% de las notas registradas. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Otras Medidas de Ubicación Percentiles Cuartiles El pmo percentil en un arreglo ordenado de datos: p% de los datos es menor o igual que este valor (100 – p)% de los datos es mayor que o igual a este valor (donde 0 ≤ p ≤ 100) 1er cuartil = 25to percentil 2do cuartil = 50mo percentil Mediana 3er cuartil = 75to percentil

Índice de Ubicación del Percentil Percentiles El pmo percentil en un arreglo ordenado de n valores es el valor en la ubicación ima, donde Si i no es un entero, redondear hacia arriba Índice de Ubicación del Percentil Si i es un entero, considerar el promedio del imo y del (i+1)mo valor. Ejemplo: Encontrar el 60mo percentil en un arreglo ordenado de 19 valores. Usar el valor de ubicación i = 12do

Percentiles: Ejemplo Salarios mensuales en miles de una muestra de 30 ejecutivos: Ordenados de menor a mayor: Determinación del índice de locación percentil i i = (p/100)*n = (80/100)*30 = 24 Para i = 24 e i = 25 se tienen los valores 20.5 y 21.0. El percentil 80th será: (20.5 + 21.0)/2 = 20.75. 13.5 8.6 16.2 21.4 21.0 23.7 4.1 13.8 20.5 9.6 11.5 6.5 5.8 10.1 11.1 4.4 12.2 13.0 15.7 13.2 13.4 13.1 21.7 14.6 14.1 12.4 24.9 19.3 26.9 11.7 4.1 4.4 5.8 6.5 8.6 9.6 10.1 11.1 11.5 11.7 12.2 12.4 13.0 13.1 13.2 13.4 13.5 13.8 14.1 14.6 15.7 16.2 19.3 20.5 21.0 21.4 21.7 23.7 24.9 26.9 Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Cuartiles Los cuartiles dividen a los datos ordenados en cuatro grupos iguales: Notar que el segundo cuartil (el 50mo percentil), Q2, es la mediana IQR (rango intercuartílico) = Q3 – Q1 25% 25% 25% 25% Q1 Q2 Q3

Cuartiles 25 Interpretación: El 25% de los datos es menor que 13 Ejemplo: Encontrar el primer cuartil Datos muestrales en un arreglo ordenado: 11 12 13 16 16 17 18 21 22 (n = 9) Q1 = 25to percentil. Encontrar i : i = (9) = 2.25 Entonces redondear hacia arriba y usar el valor en la 3ra ubicación: Q1 = 13 25 100 Redondear a 3 dado que no es un entero Interpretación: El 25% de los datos es menor que 13

Gráfico de Caja y Bigote Herramienta gráfica de descripción de datos cuantitativos, muestra: La mediana y los cuartiles Valores átipicos Valores atípicos valores inusualmente bajos o altos en relación al resto de valores de la data. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Gráfico de Caja y Bigote Es una presentación gráfica de los datos usando una “caja” central y “bigotes” extendidos Ejemplo: 25% 25% 25% 25% * * Valores “Valor más pequeño” 1er Mediana 3er “Valor más grande” Atípicos (Límite Inferior) Cuartil Cuartil (Límite Superior)

Construcción de un Gráfico de Caja y Bigote * * Valores “Valor más pequeño” 1er Mediana 3er “Valor más grande” Atípicos (Límite Inferior) Cuartil Cuartil (Límite Superior) El límite inferior es Q1 – 1.5 (Q3 – Q1) El límite superior es Q3 + 1.5 (Q3 – Q1) Dibujar una caja desde Q1 a Q3 Trazar una línea vertical en la mediana Trazar líneas (bigotes) hacia el valor más pequeño y más grande (dentro de los límites calculados) Identificar los valores atípicos fuera de los límites calculados

Forma de un Gráfico de Caja y Bigote La caja y la línea central están centrados entre los valores extremos si los datos son simétricos respecto a la mediana Un Gráfico de Caja y Bigote puede ser mostrado en un formato vertical u horizontal

Forma de una Distribución y de su Gráfico de Caja y Bigote Asimétrica a la Izquierda Asimétrica a la Derecha Simétrica Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

Construcción de un Gráfico de Caja y Bigote Ordenar los valores de menor a mayor Encontrar Q1, Q2, Q3 Dibujar la caja tal que los límites sean Q1 y Q3 Trazar una línea vertical en la mediana Calcular el rango intercuartílico (Q3 – Q1) Trazar líneas (bigotes) hacia el valor más pequeño y más grande (dentro de los límites calculados) Identificar los valores atípicos con un asterisco (*)

Gráfico de Caja y Bigote: Ejemplo Acontinuación se presenta un arreglo ordenado de datos y su gráfico de caja y bigote: 0 2 2 2 3 3 4 5 6 11 27 Estos datos son asimétricos a la derecha (ver gráfico) Min Q1 Q2 Q3 Max * 0 2 3 6 11 27 27 está arriba del límite superior, por lo tanto, es un valor atípico Límite superior = Q3 + 1.5 (Q3 – Q1) = 6 + 1.5 (6 – 2) = 12

Medidas de Variación El presidente de la corporación solicita al gerente de producción información sobre la producción de los últimos 5 días de las plantas A y B. Se registran los siguientes resultados: El gerente de producción elabora un resumen el cual presente al presidente: En base a la información proporcionada, ¿Qué puede concluir el presidente? ¿Cuál es la realidad? A 15 25 35 20 30 B 23 26 24 27 Media Mediana A 25 B Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Coeficiente de Variación Medidas de Variación Variación Rango Varianza Desviación Estándar Coeficiente de Variación Rango Intercuartílico Varianza Poblacional Desviación Estándar Poblacional Varianza Muestral Desviación Estándar Muestral

Variación Las medidas de variación dan información sobre la dispersión o variabilidad de los datos Valor pequeño Menos variación Valor grande Más variación Mismo centro, diferente variación

Rango = xmáximo – xmínimo Medida más simple de variación Diferencia entre la observación más grande y la más pequeña: Rango = xmáximo – xmínimo Ejemplo: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Rango = 14 - 1 = 13

Desventajas del Rango Ignora la distribución de los datos Sensible a los valores atípicos 7 8 9 10 11 12 7 8 9 10 11 12 Rango = 12 - 7 = 5 Rango = 12 - 7 = 5 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Rango = 5 - 1 = 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Rango = 120 - 1 = 119

Rango Intercuartílico Usando el rango intercuartílico se puede eliminar algunos problemas de valores atípicos No cambiará incluso si los valores más pequeños y más grandes tomasen valores más extremos Rango intercuartílico =Q3 – Q1

Rango Intercuartílico: Ejemplo Mediana (Q2) X X Q1 Q3 máximo mínimo 25% 25% 25% 25% 12 30 45 57 70 Rango intercuartílico: 57 – 30 = 27

Medidas de Variación Rango Considera solo dos valores de la data Sensible a valores extremos Intercuartílico Elimina la influencia de los valores extremos Varianza Considera todos los valores de la data Unidades cuadráticas de los datos DS Considera todos los valores de la data Unidades iguales a los de la data Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Varianza Promedio del cuadrado de las desviaciones de los valores respecto a la media (unidades cuadráticas) Varianza poblacional: Varianza muestral:

Desviación Estándar Medida de variación más usada Muestra la variación respecto a la media Tiene la misma unidad de los datos Desviación estándar poblacional: Desviación estándar muestral:

Desviación Estándar Muestral: Ejemplo Datos muestrales (Xi) : 10 12 14 15 17 18 18 24 n = 8 Media = x = 16

Comparación de Desviaciones Estándar Misma media pero diferentes desviaciones estándar: Datos A Media = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21 Datos B Media = 15.5 s = 0.9258 11 12 13 14 15 16 17 18 19 20 21 Datos C Media = 15.5 s = 4.57 11 12 13 14 15 16 17 18 19 20 21

¿Qué datos tienen mayor variabilidad? Datos A: SA = 100 Datos B: SB = 1 Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

¿Qué datos tienen mayor variabilidad ¿Qué datos tienen mayor variabilidad? Datos A: SA = 100 MediaA = 1,000 Datos B: SB = 1 MediaB = 0.01 Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Media y Desviación Estándar Interacción entre media y la DS en la descripción de los datos y la generación de información. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall

Coeficiente de Variación Muestra la variación relativa a la media. Expresado siempre en porcentaje (%). Especialmente relevante para comparar la variabilidad de dos distribuciones con distintas medias. Usado para comparar dos o más conjuntos de datos medidos en diferentes unidades o niveles Población Muestra

Comparación de Coeficientes de Variación Acción A: Precio promedio del año pasado = $50 Desviación estándar = $5 Acción B: Precio promedio del año pasado = $100 Ambas acciones tienen la misma desviación estándar, pero la Acción B es menos variable relativo a su precio

Regla Empírica Si la distribución de los datos tiene forma de campana, entonces el intervalo ( ) contiene alrededor del 68% de los valores de la población: 68% La media y la mediana son iguales

Regla Empírica contiene alrededor del 95% de los valores de la población contiene alrededor del 99.7% de los 95% 99.7%

Teorema de Tchebysheff Sin considerar como esten distribuidos los datos, al menos (1 - 1/k2) de los valores caerán dentro del intervalo μ ± kσ Ejemplos: (1 - 1/12) = 0% ……..... k=1 (μ ± 1σ) (1 - 1/22) = 75% …........ k=2 (μ ± 2σ) (1 - 1/32) = 89% ………. k=3 (μ ± 3σ) Al menos Dentro

Valores Estandarizados Un valor estandarizado se refiere al número de desviaciones estándar en que el valor difiere de su media. Un valor estandarizado también es conocido como valor z. Pueden ser usados para comparar conjuntos de datos, al menos de intervalo, incluso de escala distinta. Serán vistos en mayor detalle en los próximos capítulos.

Valores Estandarizados Poblacionales Donde: x = valor original del dato μ = media poblacional σ = desviación estándar poblacional z = valor estandarizado (número de desviaciones estándar en que x difiere de μ)

Valores Estandarizados Muestrales Donde: x = valor original del dato x = media muestral s = desviación estándar muestral z = valor estandarizado (número de desviaciones estándar en que x difiere de x )

Valor Estandarizado: Ejemplo Los puntajes de CI en una población tienen distribución en forma de campana con media μ = 100 y desviación estándar σ = 15 Encontrar el valor estandarizado (z-score) para una persona con un CI de 121. Alguien con CI de 121 está a 1.4 desviaciones estándar sobre la media Respuesta:

Usando Excel Estadísticas Descriptivas son fáciles de obtener de Excel Seleccione: Datos / Análisis de datos / Estadística descriptiva Diligencie el cuadro de diálogo

Usando Excel (continuación) Seleccionar: Datos / Análisis de datos / Estadística descriptiva

Usando Excel Diligenciar el cuadro de diálogo (continuación) Diligenciar el cuadro de diálogo Seleccionar “Resumen de estadísticas” Click en “Aceptar”

Resultado del Excel Estadísticas descriptivas de los precios de las casas (usando Excel): Precios de las casas: $2,000,000 500,000 300,000 100,000 100,000

Resumen Se describió medidas de centro y ubicación Media, mediana, moda, media ponderada Se discutió percentiles y cuartiles Se creó gráficos de caja y bigote Se ilustró formas de distribución Simétrica y asimétrica

Resumen Se describió medidas de variación (continuación) Se describió medidas de variación Rango, rango intercuartílico, varianza, desviación estándar, coeficiente de variación Se discutió el teorema de Tchebysheff Se calculó valores estandarizados