La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

GRÁFICOS DE CAJAS VALORES ATIPICOS MEDIDAS DE DISPERSIÓN

Presentaciones similares


Presentación del tema: "GRÁFICOS DE CAJAS VALORES ATIPICOS MEDIDAS DE DISPERSIÓN"— Transcripción de la presentación:

1 GRÁFICOS DE CAJAS VALORES ATIPICOS MEDIDAS DE DISPERSIÓN
Pedro Godoy Gómez

2

3

4

5

6

7

8

9

10 VALORES ATIPICOS Los valores atípicos en un conjunto de datos son aquellos que son mucho mayores o mucho menores que el resto de valores. Hay diferentes criterios para definir que se entiende por mucho mayor o mucho menor, pero aquí en el curso utilizaremos un criterio basado en los cuartiles. Consideraremos valores atípicos por exceso a aquellos que sean mayores al tercer cuartíl (Q3) mas 1;5 veces el rango intercuartílico (R:I:C:) y valores atípicos por defecto a aquellos que sean menores al primer cuartíl (Q1) menos 1;5 veces el rango intercuartílico (R:I:C:). Así, en general, podemos decir que son valores atípicos son todos los que no se encuentren en el intervalo:

11 A continuación se muestra un conjunto de datos
A continuación se muestra un conjunto de datos. Determine si tiene o no valores atípicos No hay valores fuera del intervalo, por lo que no hay valores atípicos.

12 Diagrama de cajas: Aun así nos puede ser suficiente con una representación todavía mas esquemática de como se distribuyen los datos, en ese caso se puede optar por un Diagrama de cajas. En este aparece en la parte central una caja cuyos extremos están delimitados por el primer y tercer cuartíl, mientras que la mediana aparece como una línea que divide la caja anterior. A su vez los llamados bigotes de la caja, aparecen unidos por un segmento que cruza la caja anterior y que da una idea aproximada del rango de los datos. Hay diferentes criterios para representar los bigotes, pero el que estudiaremos en este curso sera el que se detalla a continuación:

13 el bigote inferior representara o bien 1;5 veces el R. I. C
el bigote inferior representara o bien 1;5 veces el R.I.C. por debajo del primer cuartíl o bien el valor mínimo si este no es un valor atípico; y el bigote superior representara o bien 1;5 veces el R.I.C. por encima del tercer cuartíl o bien el valor máximo si este no es un valor atípico. Si hay valores atípicos en el conjunto de datos, se representan mediante puntos aislados fuera del diagrama. Nuevamente, los detalles de cada uno de las representaciones anteriores (orientación horizontal/vertical de la representación, colores,...) se dejan a la elección del usuario en función de las características de los datos y los requerimientos de la información que se quiera representar.

14 A continuación representaremos los datos anteriores ( estaturas) en un diagrama de cajas.

15

16

17 Min 35 Q1 67 Q2 75 Q3 93,5 Max 150 RIC 26,5 Extr inf 27,25 extr sup
60 62 63 65 66 68 69 70 74 75 82 85 87 92 93 94 98 100 102 110 150 Min 35 Q1 67 Q2 75 Q3 93,5 Max 150 RIC 26,5 Extr inf 27,25 extr sup 133,25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 140 145 150 155

18 TAREA

19 MEDIDAS DE DISPERSIÓN Miden qué tanto se dispersan las observaciones alrededor de su media.

20 MEDIDAS DE DISPERSIÓN En algunos casos existen conjuntos de datos que tienen la misma media y la misma mediana, pero esto no refleja qué tan dispersos están los elementos de cada conjunto. Ejemplo: Conjunto , 90, 100, 110, 120 Conjunto , 50, 100, 150, 200 Conjunto 1 Conjunto 2 Observa que para ambos conjuntos la Mediana es igual a 100. También nota que los datos del conjunto 2 están más dispersos con respecto a su media que los datos del conjunto 1.

21 Coeficiente de variación
MEDIDAS DE DISPERSIÓN Existen diversas medidas estadísticas de dispersión, pero muchos autores coinciden en que las principales son: Rango Varianza Desviación estándar Coeficiente de variación

22 Calcula el rango de la variable Solución.
Mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado (Límite superior) y el valor más bajo (Límite inferior). FÓRMULA Ejemplo 1. Ante la pregunta sobre número de hijos por familia, una muestra de 12 hogares, marcó las siguientes respuestas: Calcula el rango de la variable Solución.

23 Ejemplo 2. Hay dos conjuntos sobre la cantidad de lluvia (mm) en Taipei y Seúl en un año. Calcula el rango en cada una de las ciudades. Solución. Aplicando la fórmula correspondiente tenemos: Taipei Seúl En este caso se puede observar que el rango es el mismo para ambos casos aunque las cantidades sean diferentes.

24

25 VARIANZA (Datos no agrupados)
Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. La sumatoria obtenida se divide por el tamaño de la muestra. FÓRMULA Muestral Poblacional

26 La varianza siempre será mayor que cero
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. Ejemplo 1. Calcula la varianza para los siguientes datos Solución. Primero es necesario obtener la media. En este caso Ahora aplicamos la fórmula correspondiente

27 Ejemplo 2. A continuación se muestran dos conjuntos de datos obtenidos a partir de un experimento químico que realizaron dos estudiantes distintos. Calcular la varianza. Solución. Primero es necesario obtener la media de cada conjunto de datos. En este caso Estudiante A Estudiante B Ahora aplicamos la fórmula correspondiente

28 Solución (Continuación).
Estudiante A Estudiante B

29 DESVIACIÓN ESTÁNDAR (Datos no agrupados)
También llamada desviación típica, es una medida de dispersión usada en estadística que nos dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. Específicamente, la desviación estándar es "el promedio de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma,σ, según se calcule en una muestra o en la población. Una desviación estándar grande indica que los puntos están lejos de la media, y una desviación pequeña indica que los datos están agrupados cerca de la media. FÓRMULA Muestral Poblacional

30 Ejemplo 1. Si retomamos el ejemplo 1 que corresponde a la varianza: Calcula la desviación estándar para los siguientes datos Solución. Una vez que hemos calculado la media y la varianza, sólo resta calcular la raíz cuadrada de la varianza.

31 Ejemplo 2. Solución. Estudiante A Estudiante B
Considerando nuevamente el segundo ejemplo que estudiaste para calcular la varianza, tenemos: A continuación se muestran dos conjuntos de datos obtenidos a partir de un experimento químico que realizaron dos estudiantes distintos. Calcular la varianza. Solución. Una vez que has calculado la media y la varianza, es necesario calcular la desviación estándar a partir de la obtención de la raíz cuadrada de la varianza. Estudiante A Estudiante B

32

33 Coeficiente de variación
Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos diferentes,  nos dará información útil.

34 ¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviación típica, y , se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido.

35 El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas.

36 En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación estandar. Se define del siguiente modo:

37 COEFICIENTE DE VARIACIÓN
Es una medida de dispersión que se utiliza para poder comparar las desviaciones estándar de poblaciones con diferentes medias y se calcula como cociente entre la desviación típica y la media. FÓRMULA Muestral Poblacional

38 Ejemplo 1. En dos cursos los promedios que sacaron sus alumnos fueron 6.1 y 4.3 y las desviaciones estándar respectivas fueron 0.6 y 0.45 respectivamente. ¿En qué curso hay mayor dispersión? Solución Para responder esto, debemos obtener el coeficiente de variación aplicando la fórmula Claramente, el curso A tiene una dispersión menor que el B, pese a presentar una mayor desviación estándar.

39 Ejemplo: Se realiza un experimento para investigar el efecto de una
nueva dieta, sobre la ganancia de peso de cachorros durante las primeras semanas de vida. Gran Danés: ganancia media de 30 libras, desv. típica de 10 libras. Chihuahua: ganancia media de 3 libras, desv. típica de 1,5 libras. ¿Qué grupo posee mayor variabilidad?

40 Muestra Homogenea Una muestra se considera homogénea, si la desviación estandar se encuentra entre la quinta y cuarta parte del rango. Si no es así, entonces se considera que la muestra es heterogénea.

41 ¿Es homogénea la siguiente muestra?
Sean 4, 6, 8 y 10 Rango = 10 – 4 = 6 Intervalo [ 1,2 ; 1,5] Calculemos , primero debemos calcular el promedio 2,23  Intervalo entonces la muestra es heterogénea

42 Tarea 2 Haciendo uso de la tabla, determine si la muestra es homogénea o Heterogénea Edades Frecuencia 15 – 20 2 21 – 26 7 27 – 32 8 33 – 38 5 39 – 44 4

43 Los coefientes de variación sirven para comparar las variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores tipificados. Ninguno de ellos posee unidades y es un error frecuente entre estudiantes de bioestadística confundirlos. Tema que será tratado posteriormente


Descargar ppt "GRÁFICOS DE CAJAS VALORES ATIPICOS MEDIDAS DE DISPERSIÓN"

Presentaciones similares


Anuncios Google