GRÁFICOS DE CAJAS VALORES ATIPICOS MEDIDAS DE DISPERSIÓN

Slides:



Advertisements
Presentaciones similares
Resumen y descripci ó n de datos num é ricos Estad í stica Capítulo 3.2.
Advertisements

MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
T IPIFICACIÓN – ASIMETRÍA - APUNTAMIENTO Pedro Godoy Gómez Profesor Bioestadística.
AREA ESTADÍSTICA. ACTIVIDAD 1 En un ensayo de sanidad vegetal se estudia el efecto de una nueva formulación química para el control de una plaga en ajos.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
Métodos Cuantitativos de Análisis de Datos I. Medidas de Variación.
ESTADÍSTICA ÍNDICE 1.Introducción.Introducción. 2.Población y muestra.Población y muestra. 3.Variables estadísticas:Variables estadísticas: Cualitativas.
TEMA 1: TEMA 1: INTRODUCCIÓN A LA ESTADÍSTICA Por: Denise Muñoz Belmonte Claudia Morales Cerezuela.
REPRESENTACIONES GRÁFICAS. Un gráfico es una representación visual mediante elementos geométricos (líneas, círculos, etc...) de una serie de datos estadísticos.
T – Student teoria de las muestras pequeñas Paola Andrea Palacio Montero Estadística.
DISTRIBUCIONES ESTADÍSTICAS Realizado por: Claudia Morales y Denise Muñoz.
Bioestadística Escala Cuantitativa.. Trabajadores en una fábrica. RegistroSexoEdad (años)Talla (m)Peso (kg) 1Fem Masc Masc
TEMA 3. ESTADÍSTICA BIDIMENSIONAL. INDICE 1.- Relación estadística: correlación 2.- Diagramas de dispersión o nube de puntos 3.- Tablas de frecuencia.
Estadística inferencial. ¿Qué es? La Estadística inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para toda la población.
Mediana para datos agrupados IIIº Medio Objetivo Determinar e interpretar la mediana para datos agrupados, valorando su utilidad en diversos contextos.
TEMA 2: PARÁMETROS ESTADÍSTICOS. INDICE 1. Parámetros estadísticos: 1.1 Definición 1.2 Medidas de Centralización: Medias, moda y Mediana 1.3 Medidas de.
Medidas de centralización:  Media aritmética, mediana y moda para: i) listas de datos ii) datos agrupados en una tabla de frecuencia iii) datos agrupados.
Tema 2. Parámetros estadísticos. Indice 1. Parámetros estadísticos. Tipos: 1.1 Medidas de centralización(medias y moda) 1.2 Medidas de posición(mediana,
Estimación e intervalos de confianza. Estimaciones puntuales e intervalos de confianza Estimación puntual: Estadístico calculado a partir de la información.
República Bolivariana de Venezuela Instituto Universitario Politécnico “Santiago Mariño" Estadísticas I - OV Estadística Profesor : Bachiller: Pedro Beltrán.
PERCENTILES, CUARTILES Y DECILES. Un percentil es una de las llamadas medidas de posición no central (cuartiles, deciles, percentiles, etc) que se puede.
Carrera de Administración Área Recursos Humanos Diseñó: Arturo Corona PeguerosEne-abr 17 Medidas de Medidas de Tendencia Central Tendencia Central Medidas.
1  Las medidas de dispersión miden la variabilidad de los datos con relación a una medida de tendencia central.  Las medidas descriptivas más comunes.
 Los datos que a continuación se presentan corresponden al número de llamadas telefónicas que un grupo de personas realiza durante el día. 0, 1, 2, 4,
Medidas de tendencia central
DISTRIBUCION F DE FISHER.
TEMA 3: Distribuciones bidimensionales: relación entre dos variables estadísticas. Cristhian Lopez.
DISTRIBUCIONES EN EL MUESTREO
CONCEPTOS BASICOS ESTADISTICA.-Conjunto de métodos que nos permiten tomar decisiones en momentos de incertidumbre (duda). Tiene como objetivo que la información.
ESTADÍSTICA UNIDIMENSIONAL
Percentiles –cuartiles y rango intercuartil
Clase 5: Medidas de Variación
ESTADÍSTICA UNIDIMENSIONAL
ASIMETRÍA.
estadistica
Estadística Básica Curso de Estadística Básica MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE.
REGRESIÓN LINEAL SIMPLE
Estadística Unidimensional Conceptos básicos.
Distribución normal o de Gauss
MEDIDAS DE DISPERSIÓN PARA DATOS NO AGRUPADOS Y PARA TABLAS
INTERVALO DE CONFIANZA
GRÁFICOS EN ESTADÍSTICA
DISTRIBUCIÓN MUESTRAL DE UNA MEDIA.
Estadística.
Aplicaciones Estadísticas a las Finanzas
UNIVERSIDAD DE GUAYAQUIL FACULTAD DE CIENCIAS ADMINISTRATIVAS
ESTADÍSTICA BÁSICA.
Cuartiles, deciles, percentiles.
Introducción a la Estadística Descriptiva
2016 / 17 ESCALA Informe evolutivo sobre resultados en la Prueba
ANÁLISIS ESTADÍSTICO PROFESOR: PIA VEGA CODOCEO. MEDIA ARITMÉTICA Es la suma de los valores de una variable dividida por, él numero de ellos. La media.
Distribución de frecuencias
PROBABILIDAD Y ESTADISTICA APLICADA A LOS NEGOCIOS
MEDIDAS DE DISPERSIÓN.
Bioestadística Francisco Javier Barón López Dpto. Medicina Preventiva
Estadística Descriptiva
Dr. Carlomagno Araya Alpízar
Dr. Carlomagno Araya Alpízar
TEMA 3: MUESTREO Y ESTIMACIÓN
Medidas de Dispersión Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución con respecto de su media.
Dr. Alejandro Salazar – El Colegio de Sonora
ESTADISTICA MEDIDAS DE DISPERSIÓN Cristian Gómez Coordinar Técnico Calidad Laboratorio Labsai.
ESTADISTICA DESCRIPTIVA
“Medidas de dispersión”
Estadística Administrativa I
1 Temario de la asignatura Introducción. Análisis de datos univariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad.
Estadística Descriptiva
CAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA
MEDIDAS DE DISPERSIÓN “Medidas de dispersión”. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
REGRESION LINEAL SIMPLE
Transcripción de la presentación:

GRÁFICOS DE CAJAS VALORES ATIPICOS MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez

https://www.youtube.com/watch?v=1X5MVG_4X_w https://www.youtube.com/watch?v=UITOevUejxE https://www.youtube.com/watch?v=vdvO6SJyVmA

VALORES ATIPICOS Los valores atípicos en un conjunto de datos son aquellos que son mucho mayores o mucho menores que el resto de valores. Hay diferentes criterios para definir que se entiende por mucho mayor o mucho menor, pero aquí en el curso utilizaremos un criterio basado en los cuartiles. Consideraremos valores atípicos por exceso a aquellos que sean mayores al tercer cuartíl (Q3) mas 1;5 veces el rango intercuartílico (R:I:C:) y valores atípicos por defecto a aquellos que sean menores al primer cuartíl (Q1) menos 1;5 veces el rango intercuartílico (R:I:C:). Así, en general, podemos decir que son valores atípicos son todos los que no se encuentren en el intervalo:

A continuación se muestra un conjunto de datos A continuación se muestra un conjunto de datos. Determine si tiene o no valores atípicos No hay valores fuera del intervalo, por lo que no hay valores atípicos.

Diagrama de cajas: Aun así nos puede ser suficiente con una representación todavía mas esquemática de como se distribuyen los datos, en ese caso se puede optar por un Diagrama de cajas. En este aparece en la parte central una caja cuyos extremos están delimitados por el primer y tercer cuartíl, mientras que la mediana aparece como una línea que divide la caja anterior. A su vez los llamados bigotes de la caja, aparecen unidos por un segmento que cruza la caja anterior y que da una idea aproximada del rango de los datos. Hay diferentes criterios para representar los bigotes, pero el que estudiaremos en este curso sera el que se detalla a continuación:

el bigote inferior representara o bien 1;5 veces el R. I. C el bigote inferior representara o bien 1;5 veces el R.I.C. por debajo del primer cuartíl o bien el valor mínimo si este no es un valor atípico; y el bigote superior representara o bien 1;5 veces el R.I.C. por encima del tercer cuartíl o bien el valor máximo si este no es un valor atípico. Si hay valores atípicos en el conjunto de datos, se representan mediante puntos aislados fuera del diagrama. Nuevamente, los detalles de cada uno de las representaciones anteriores (orientación horizontal/vertical de la representación, colores,...) se dejan a la elección del usuario en función de las características de los datos y los requerimientos de la información que se quiera representar.

A continuación representaremos los datos anteriores ( estaturas) en un diagrama de cajas.

Min 35 Q1 67 Q2 75 Q3 93,5 Max 150 RIC 26,5 Extr inf 27,25 extr sup 60 62 63 65 66 68 69 70 74 75 82 85 87 92 93 94 98 100 102 110 150 Min 35 Q1 67 Q2 75 Q3 93,5 Max 150 RIC 26,5 Extr inf 27,25 extr sup 133,25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 140 145 150 155

TAREA

MEDIDAS DE DISPERSIÓN Miden qué tanto se dispersan las observaciones alrededor de su media.

MEDIDAS DE DISPERSIÓN En algunos casos existen conjuntos de datos que tienen la misma media y la misma mediana, pero esto no refleja qué tan dispersos están los elementos de cada conjunto. Ejemplo: Conjunto 1. 80, 90, 100, 110, 120 Conjunto 2. 0, 50, 100, 150, 200 Conjunto 1 Conjunto 2 Observa que para ambos conjuntos la Mediana es igual a 100. También nota que los datos del conjunto 2 están más dispersos con respecto a su media que los datos del conjunto 1.

Coeficiente de variación MEDIDAS DE DISPERSIÓN Existen diversas medidas estadísticas de dispersión, pero muchos autores coinciden en que las principales son: Rango Varianza Desviación estándar Coeficiente de variación

Calcula el rango de la variable Solución. Mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado (Límite superior) y el valor más bajo (Límite inferior). FÓRMULA Ejemplo 1. Ante la pregunta sobre número de hijos por familia, una muestra de 12 hogares, marcó las siguientes respuestas: 2 1 2 4 1 3 2 3 2 0 5 1 Calcula el rango de la variable Solución.

Ejemplo 2. Hay dos conjuntos sobre la cantidad de lluvia (mm) en Taipei y Seúl en un año. Calcula el rango en cada una de las ciudades. Solución. Aplicando la fórmula correspondiente tenemos: Taipei Seúl En este caso se puede observar que el rango es el mismo para ambos casos aunque las cantidades sean diferentes.

VARIANZA (Datos no agrupados) Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. La sumatoria obtenida se divide por el tamaño de la muestra. FÓRMULA Muestral Poblacional

La varianza siempre será mayor que cero La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. Ejemplo 1. Calcula la varianza para los siguientes datos 2 1 2 4 1 3 2 3 2 0 5 1 Solución. Primero es necesario obtener la media. En este caso Ahora aplicamos la fórmula correspondiente

Ejemplo 2. A continuación se muestran dos conjuntos de datos obtenidos a partir de un experimento químico que realizaron dos estudiantes distintos. Calcular la varianza. Solución. Primero es necesario obtener la media de cada conjunto de datos. En este caso Estudiante A Estudiante B Ahora aplicamos la fórmula correspondiente

Solución (Continuación). Estudiante A Estudiante B

DESVIACIÓN ESTÁNDAR (Datos no agrupados) También llamada desviación típica, es una medida de dispersión usada en estadística que nos dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. Específicamente, la desviación estándar es "el promedio de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma,σ, según se calcule en una muestra o en la población. Una desviación estándar grande indica que los puntos están lejos de la media, y una desviación pequeña indica que los datos están agrupados cerca de la media. FÓRMULA Muestral Poblacional

Ejemplo 1. Si retomamos el ejemplo 1 que corresponde a la varianza: Calcula la desviación estándar para los siguientes datos 2 1 2 4 1 3 2 3 2 0 5 1 Solución. Una vez que hemos calculado la media y la varianza, sólo resta calcular la raíz cuadrada de la varianza.

Ejemplo 2. Solución. Estudiante A Estudiante B Considerando nuevamente el segundo ejemplo que estudiaste para calcular la varianza, tenemos: A continuación se muestran dos conjuntos de datos obtenidos a partir de un experimento químico que realizaron dos estudiantes distintos. Calcular la varianza. Solución. Una vez que has calculado la media y la varianza, es necesario calcular la desviación estándar a partir de la obtención de la raíz cuadrada de la varianza. Estudiante A Estudiante B

Coeficiente de variación Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos diferentes,  nos dará información útil.

¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviación típica, y , se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido.

El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas.

En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación estandar. Se define del siguiente modo:

COEFICIENTE DE VARIACIÓN Es una medida de dispersión que se utiliza para poder comparar las desviaciones estándar de poblaciones con diferentes medias y se calcula como cociente entre la desviación típica y la media. FÓRMULA Muestral Poblacional

Ejemplo 1. En dos cursos los promedios que sacaron sus alumnos fueron 6.1 y 4.3 y las desviaciones estándar respectivas fueron 0.6 y 0.45 respectivamente. ¿En qué curso hay mayor dispersión? Solución Para responder esto, debemos obtener el coeficiente de variación aplicando la fórmula Claramente, el curso A tiene una dispersión menor que el B, pese a presentar una mayor desviación estándar.

Ejemplo: Se realiza un experimento para investigar el efecto de una nueva dieta, sobre la ganancia de peso de cachorros durante las primeras semanas de vida. Gran Danés: ganancia media de 30 libras, desv. típica de 10 libras. Chihuahua: ganancia media de 3 libras, desv. típica de 1,5 libras. ¿Qué grupo posee mayor variabilidad?

Muestra Homogenea Una muestra se considera homogénea, si la desviación estandar se encuentra entre la quinta y cuarta parte del rango. Si no es así, entonces se considera que la muestra es heterogénea.

¿Es homogénea la siguiente muestra? Sean 4, 6, 8 y 10 Rango = 10 – 4 = 6 Intervalo [ 1,2 ; 1,5] Calculemos , primero debemos calcular el promedio 2,23  Intervalo entonces la muestra es heterogénea

Tarea 2 Haciendo uso de la tabla, determine si la muestra es homogénea o Heterogénea Edades Frecuencia 15 – 20 2 21 – 26 7 27 – 32 8 33 – 38 5 39 – 44 4

Los coefientes de variación sirven para comparar las variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores tipificados. Ninguno de ellos posee unidades y es un error frecuente entre estudiantes de bioestadística confundirlos. Tema que será tratado posteriormente