La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Estadística Descriptiva Capítulo : Medidas de Localización

Presentaciones similares


Presentación del tema: "Estadística Descriptiva Capítulo : Medidas de Localización"— Transcripción de la presentación:

1 Estadística Descriptiva Capítulo 1. 1.3: Medidas de Localización
1.4: Medidas de Dispersión Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

2 Parámetros y estadísticos
Parámetro: Es una cantidad numérica calculada sobre una población La altura media de los individuos de un país La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). Estadístico: Ídem (cambiar población por muestra) La altura media de los que estamos en este sala. Somos una muestra (¿representativa?) de la población. Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir muestras para que el error sea “confiablemente” pequeño. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

3 La media El promedio (media) de n números Media poblacional: es
Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

4 Distintos Estadísticos Descriptivos
Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

5 Un brevísimo resumen sobre estadísticos
Posición Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Cuantiles, percentiles, cuartiles, deciles,... Centralización Indican valores con respecto a los que los datos parecen agruparse. Media, mediana y moda Dispersión Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Desviación típica, coeficiente de variación, rango, varianza Forma Asimetría Apuntamiento o curtosis Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

6 Estadísticos de posición
Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a. Casos particulares son los percentiles, cuartiles, deciles, quintiles,... Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

7 Estadísticos de posición
Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85% Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

8 Ejemplos Percentil 5 o cuantil 0,05
El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”? Percentil 5 o cuantil 0,05 ¿Qué peso es superado sólo por el 25% de los individuos? Percentil 75 El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales? Entre el percentil 5 y el 95 ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población? Entre el cuartil 1º y 3º Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

9 Ejemplo ¿Qué peso no llega a alcanzar el 25% de los individuos? Primer cuartil = percentil 25 = 60 Kg. ¿Qué peso es superado por el 25% de los individuos? Tercer cuartil= percentil 75= 80 kg. ¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? Entre el primer y tercer cuartil = entre 60 y 80 kg. Obsérvar que indica cómo de dispersos están los individuos que ocupan la “parte central” de la muestra. Ver más adelante rango intercuartílico. Los diagramas de caja (‘boxplot’) sintetizan esta información (y algo más). 50% 25% 25% 25% 25% Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

10 Ejemplo ≥20%? ≥ 90%? Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

11 Centralización Añaden unos cuantos casos particulares a las medidas de posición. En este caso son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. Media de 2,2,3,7 es ( )/4=3,5 Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. Mediana de 1,2,4,5,6,6,8 es 5 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7! Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

12 Algunas fórmulas Datos sin agrupar: x1, x2, ..., xn Media
Datos organizados en tabla si está en intervalos usar como xi las marcas de clase. Si no ignorar la columna de intervalos. Cuantil de orden α i es el menor intervalo que tiene frecuencia acumulada superior a α ·n α=0,5 es mediana Variable fr. fr. ac. L0 – L1 x1 n1 N1 L1 – L2 x2 n2 N2 ... Lk-1 – Lk xk nk Nk n Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

13 Altura mediana Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual

14 Ejemplo con variables continuas
Peso M. Clase frec Fr. acum. 40 – 50 45 5 50 – 60 55 10 15 60 – 70 65 21 36 75 11 47 85 52 95 3 100 – 130 115 58 En el histograma se identifica “unidad de área” con “individuo”. Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase. La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma “estaría en equilibrio” si tuviese masa. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

15 Ejemplo (continuación)
Peso M. Clase Fr. Fr. ac. 40 – 50 45 5 50 – 60 55 10 15 60 – 70 65 21 36 75 11 47 85 52 95 3 100 – 130 115 58 Moda = marca de clase de (60,70] = 65 Cada libro ofrece una fórmula diferente para la moda (difícil estar al día.) Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

16 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

17 En el caso de los pesos los alumnos de ingeniería
Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

18 Media de un conjunto de números
Para un conjunto dado de números x1, x2 ,... xn,la medida más conocida es la media o promedio aritmético del conjunto. Como muy a menudo se piensa a los xi como constituyentes de una muestra, el promedio aritmético también se denomina media muestral y se denota como . Definición: La media muestral de un conjunto de números está dada por ( , se lee “x raya”) La suma de los valores de la variable bajo estudio dividida por el número total de objetos de la población, se denota  y está definida por22 ( , se lee “mu”) Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

19 NOTA El símbolo , indica que se han promediado observaciones de un conjunto de tamaño n de una población, es fundamentalmente distinto de ya que las muestras de una población pueden tener valores diferentes entre ellas dentro de la población. Mientras que la media poblacional es una sola (constante). Sin embargo si tomamos la media de todas las medias muestrales posibles se esperaría obtener el valor de la media poblacional . Esta propiedad de hace de este sea un estimador insesgado de Esta propiedad es muy importante, pues rara vez de conoce la media de la población Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

20 Observación práctica Al escribir se recomienda usar un dígito decimal más que el correspondiente a la exactitud de los xi .así si las distancias de frenado a 120 km son x1 = 125 y x2 = 131m,… podría ser = m. Es claro que en este caso, que el tamaño poblacional N, es desconocido y que, en consecuencia, también. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

21 Agrietamiento por corrosión
Ej. 1.3 En un estudio sobre el agrietamiento por corrosión cáustica bajo tensiones del hierro y acero, debido a que suelen presentar fallas en torno de los remaches en calderas de acero y en rotores de máquinas de vapor. Si x = longitud de la grieta (m) 0H 1L 1H 2L 2H 3L 3H 4L 4H 50 Tallo: dígito de las decenas Hoja : dígitos de las unidades y de las décimas Y como , la media muestral es Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

22 Geometría de la media 10 20 30 40 Media corresponde geométricamente al punto de equilibrio de los datos pensando como un sistema de pesas Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

23 Efecto de punto alejado
attach(ej0113) dotchart(lgrieta,col=6) abline(v = mean(lgrieta,trim=0.00), col = 4, lty = 4) abline(v = mean(lgrieta,trim=0.05), col = 3, lty = 3) legend(35, 10,c("media","media recortada al 5%"),col=3:4,lty=3:4) ej0113<-read.table("ej01.13.txt",h=T) stem(ej0113$lgrieta,2) The decimal point is 1 digit(s) to the right of the | 0 | 9 1 | | | | | 02 3 | 4 | 4 | 5 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

24 Propiedades de la media (como operador)
Si , entonces Luego, Resumiendo es decir, el operador raya (media) es lineal En general Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

25 Mediana La mediana muestral, es el valor medio en un conjunto de datos arreglado en orden ascendente. Para un número par de datos la mediana es el promedio de los dos del medio. Mediana poblacional: Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

26 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

27 Mediana (Fórmula de cálculo)
Valor único si n es par Promedio de los dos valores medios si n es par Promedio de estos dos valores ordenados: La mediana muestral se obtiene al ordenar las n observaciones (incluyendo los valores repetidos) de menor a mayor magnitud. Entonces se calcula La mediana poblacional, por su parte, se denota Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

28 Cuantificación de hierro en la sangre
Concentración de globulina receptora de hierro, para una muestra de mujeres con pruebas de laboratorio de evidente anemia por deficiencias de hierro Lista de valores ordenados Como n = 12 es par, se promedia n/2 = 6° valor con el 7° valor ordenado: Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

29 Mediana Poblacional Sesgo negativo Simétrica Sesgo positivo Análogo a como valor muestral, hay un valor de media poblacional, hay un valor poblacional de la mediana muestral, el que se denota por . Y del mismo modo es estimador de . Las relaciones entre y depende de la forma de la distribución de una población. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

30 Ejemplo de mediana En un curso de 85 notas de una prueba la mediana, es el 43avo número si las notas son listadas en orden ascendente. (Nota: En este caso existen 42 arriba de la mediana y 42 abajo de la mediana). Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

31 Ejemplo de Media y Mediana
Para encontrar la mediana, primero se ordenan los valores Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

32 Relaciones entre Medias y medianas poblacionales
Distribución poblacional Sensitividad a la observaciones extremas (outliers) Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

33 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

34 Tres diferentes formas de población
simétrica Asimetría negativa Asimetría positiva Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

35 Asimetría positiva Ex 1.14, Concentración, Pág 31
Frecuencia Concentración en receptor Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

36 Sensitividad a los Valores Extremos
Un conjunto de datos contiene 19 familias, con 8 familias que ganan US$30,000 por año, 10 ganan US$35,000 por año, y que 1 gana $1 millones por año. Si la distribución es altamente asimétrica, la mediana es la mejor elección Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

37 Modo El modo, Mo de una serie estadística es el valor de la característica más frecuente o dominante en la muestra. El modo corresponde a la clase se frecuencia máxima en la distribución de frecuencias. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

38 Ventajas Inconvenientes
Media (aritmética) Fácil de calcular, Responde al principio de mínimos cuadrados Fuertemente influenciada por los valores extremos, Representa mal una población heterogénea (polimodal). Mediana No influenciado por valores extremos, Poco sensible a las variaciones de amplitud de las clases, Calculable sobre caracterís-ticas cíclicas (estaciones, etc) donde la media tiene poca significación. Se presta mal a los cálculos estadísticos, Supone datos igualmente repartidos Representa sólo el valor que separa las muestras en dos partes iguales. Modo No influenciado por la exis-tencia de valores extremos, Buen indicador de la hetero-geneidad de la población. No se preta mucho a los cálculos estadísticos Muy sensible a las variacio-nes de amplitud de las clases, Su cálculo toma en cuenta sólo los individuos cuyos valores se reportan en la clase modal. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

39 Medias recortadas Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual

40 Robustez: Medias Recortadas
Las medias y medianas están influidas por los valores atípicos de manera diferente, la media en gran medida y la mediana nada en absoluto. Las medidas a las cuales son o muy poco o nada afectadas por las observaciones atípicas se llaman robustas. Una familia de medidas robustas tienen sus valores entre la media y la mediana. Se consiguen recortando los extremos de la distribución previo el cálculo de la media, y por este motivos se llaman medias recortadas. Una media recortada al 10% se obtiene recortando el 10% de los datos de las valores más grandes y el 10% de los más pequeños. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

41 Ejemplo de Media recortada (Trimmed mean)
Duración (en horas) de las lámpara incandescentes Se registró las duración en horas de 20 horas de cierto tubo incandescente: Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

42 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

43 Otras medidas de localización
La mediana (poblacional o muestral) divide el conjunto (ordenado) de datos en dos partes iguales. Si se dividen los datos en más de dos partes se pueden obtener medidas de localización más finas. Primer cuartil Segundo cuartil Tercer cuartil 2° cuartil = mediana 4 Cuartiles (partes) Quintiles = división de cinco partes Decíles = división de diez partes Percentiles = división de 100 partes Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

44 Datos categóricos y proporción muestral
Dada una muestra aleatoria de tamaño n de una variable de valores x la proporción muestral se define como Donde x se enciende como la suma de los valores de presencia, al codificar los elementos de alguna clase con 1 ó 0 según tengan o no alguna característica distintiva. La proporción poblacional se denota por p Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

45 Tareas Ejercicios (sección 1.3 (pares(33-43))) Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual

46 Medidas de Variabilidad
1.4 Medidas de Variabilidad Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

47 Medidas de variabilidad
Las medidas de localización da sólo información parcial sobre un conjunto de datos o su distribución. Las distintas muestras o poblaciones pueden tener medidas idénticas de centralidad pero diferentes entre sí en otros aspectos característicos importares. En seguida se presentan los diagramas de puntos de tres muestras con la misma media y mediana, pero que difieren completamente en la cantidad de variabilidad. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

48 Medidas de Variabilidad
1 2 3 30 40 50 50 50 Muestras de medidas con centralidad idénticas, pero distintas variabilidades (tienen la misma media y mediana: pero distinta variabilidad) La variabilidad es distinta en las tres muestras Rango muestra 1  Rango muestra 2 > Rango muestra 3 Ojo! es en realidad “=“ Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

49 Medidas de Variabilidad para Datos Muestrales
Rango = Valor máximo – valor mínimo (también llamado Intervalo o recorrido) En el caso de la figura anterior el rango de la muestra 1 es la de mayor variabilidad y la muestra 3 es la de menor variabilidad. Rango muestra 1 = Rango muestra 2, pero claramente hay menos dispersión en la segunda que en la primera muestra. ¡El rango depende mucho de los valores extremos! Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

50 Desviaciones de la Media
Se llaman desviaciones respecto de la media (transformación de centramiento) al resultado de restar media de cada una de las n observaciones de la muestra Una desviación positiva si la observación es mayor (está a la derecha de la media en el eje de medición) que la media y es negativa si es menor que la media Media Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

51 Propiedades de las desviaciones de la media
Si las magnitud de todas las desviaciones pequeña, entonces las xi estarán cerca de la media y hay poca variabilidad. Si algunas de las desviaciones son grandes entonces alguna se las xi quedan lejos de , lo que indica una mayor variabilidad Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

52 Variabilidad o dispersión
Los estudiantes de Estadística reciben diferentes calificaciones en la asignatura (variabilidad). ¿A qué puede deberse? Diferencias individuales en el conocimiento de la materia. ¿Podría haber otras razones (fuentes de variabilidad)? Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas serían las mismas en todos? Seguramente No. Dormir poco el día del examen, el croissant estaba envenenado... Diferencias individuales en la habilidad para hacer un examen. El examen no es una medida perfecta del conocimiento. Variabilidad por error de medida. En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala Variabilidad por azar, aleatoriedad. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

53 Variabilidad o dispersión
Los estudiantes de estadística reciben diferentes calificaciones en la asignatura (variabilidad). ¿A qué puede deberse? Diferencias individuales en el conocimiento de la materia. ¿Podría haber otras razones (fuentes de variabilidad)? Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas serían las mismas en todos? Seguramente No. Dormir poco el día del examen, el croissant estaba malo... Diferencias individuales en la habilidad para hacer un examen. El examen no es una medida perfecta del conocimiento. Variabilidad por error de medida. En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala Variabilidad por azar, aleatoriedad. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

54 Medidas de dispersión Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. Amplitud o Rango (‘range’): La diferencia entre las observaciónes extremas. 2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos. Rango intercuartílico (‘interquartile range’): Es la distancia entre el primer y tercer cuartil. Rango intercuartílico = P75 - P25 Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos. 25% 25% 25% 25% Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

55 Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. Si habéis oído hablar en física de porqué un patinador gira a diferente velocidad cuando tiene los brazos recogidos (menor dispersión), puede que os suene el ‘coeficiente de inercia’ Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

56 Tiene las misma dimensionalidad (unidades) que la variable.
Desviación típica (‘standard deviation’) Es la raíz cuadrada de la varianza Tiene las misma dimensionalidad (unidades) que la variable. Cierta distribución que veremos más adelante (normal o gaussiana) quedará completamente determinada por la media y la desviación típica. A una distancia de una desv. típica de la media tendremos 68% observaciones. A una distancia de dos desv. típica de la media tendremos 95% observaciones. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

57 A dos desviaciones típicas las tenemos a casi todas (dcha.)
Centrado en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones (izq.) A dos desviaciones típicas las tenemos a casi todas (dcha.) Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

58 Coeficiente de variación
Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media” También se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa) Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura. No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0ºC ≠ 0ºF Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso). Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

59 Dispersión en cuartos (Cuartiles)
La dispersión cuartílica fs (Rango inter cuartílico: IQR) fs = cuarto superior– cuarto inferior = IQR = 3er cuartil – 1er cuartil. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

60 Cuartiles superior e inferior
Una vez ordenada las n observaciones del conjunto de datos de menor a mayor, el cuartil inferior (superior) es la mediana de la mitad inferior (superior) de los datos (largest), donde la mediana se incluye en ambas mitades de n es impar. Una medida de dispersión que es resistente a los outliers es la dispersión cuartílica fs = cuartil superior – cuartil inferior Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

61 El tercer y primer cuartil
Después de ordenadas n observaciones de un conjunto de datos en orden creciente, el primer (tercer) cuartil es la mediana de de la mitad de los datos más pequeños (mayores), donde la mediana se incluye en ambas mitades si n es impar. Una medida de dispersión resistente a las observaciones extremas es el rango intercuartílico IQR: fs = 3er cuartil – 1er cuartil. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

62 Observaciones atípicas (outlier)
Cualquier observación más allá 1.5fs del cuartil más cercano es outlier. Una observación atípica es extrema si está más acá de 3fs del cuartil más cercano, y es extraña de cualquier otro modo. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

63 Ejemplo de gráfico de cajas Aislantes de alto voltaje n = 25, pág 42
5.3 8.2 13.8 74.1 85.3 88.0 90.2 91.5 92.4 92.9 93.6 94.3 94.8 94.9 95.5 95.8 95.9 96.6 96.7 98.1 99.0 101.4 103.7 106.0 113.5 = 94.8, fs = fs= 96.7 q = q= q = 19.50 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

64 Rango Muy sensible a los outliers
Diferencia entre los valores muestrales mayor y menor. Muy sensible a los outliers Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

65 Varianza muestral La Variance es una medida de dispersión de los datos. La varianza muestral de la muestra x1, x2, …xn de n valores de X está dada por La varianza poblacional: Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

66 Ejemplo de varianza muestral
Primero, encuentre la varianza muestral: En seguida, sume los cuadrados de las desviaciones de la media: Divida por n - 1, donde n es el número de observaciones (en este caso, 85): Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

67 Desviación estándar La Desviación estándar es una medida de dispersión de los datos en las mismas unidades de los datos originales. La desviación estándar muestral es la raíz cuadrada positiva de la varianza muestral: Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

68 Ejemplo de desviación estándar
Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

69 Fórmula para s2 Una expresión alternativa para el numerador de s2 es
Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

70 Fórmula para s2: Ejemplo abreviado
Primero, sume los valores: En seguida, sume los cuadrados: El numerador de la varianza muestral es igual a 85 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

71 Propiedades de s2 Sean x1, x2,…,xn cualquier muestra y c una constante no nula donde es la varianza muestral de las x’s y es la varianza muestral de los y’s. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

72 Ejemplo X(max) = 125 X(min) = 40 Q2 = 40 Q2 = 72.5 Q3 = 90
X(max) = 125 X(min) = 40 Q2 = 40 Q2 = 72.5 Q3 = 90 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

73 Boxplots Cuartil superior Cuartil inferior mediana Outlier extremo
Valores adyacentes Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

74 Ejemplo 1.18: Exploración por ultrasonido de la corrosión de fondos de estanques contenedores de petróleo (por borras) Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

75 Ejemplo de Boxplot magnitud de pulso n = 25, pág 42
5.3 8.2 13.8 74.1 85.3 88.0 90.2 91.5 92.4 92.9 93.6 94.3 94.8 94.9 95.5 95.8 95.9 96.6 96.7 98.1 99.0 101.4 103.7 106.0 113.5 = 94.8, Cuartil inferior = Cuartil superior = 96.7 fs = fs = fs = 19.50 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

76 Ejemplo 1.19: Degradación de cavidades aisladoras de cerámica con el alto voltaje
0 58 1 3 7 4 * * * Outside Values * * * 8 5 8 8 8 9 H 01 9 M 9 H 66 9 89 10 1 10 3 10 10 6 11 3 Ancho de impulso Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

77 Boxplot del ejemplo 19 Ancho de impulso Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual

78 Boxplots lado a lado (Side-By-Side)
Peso Sexo Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

79 Ejercicios Sec 1.4 (44-61) Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual

80 Asimetría o Sesgo Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralización son indicación de asimetría. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

81 Estadísticos para detectar asimetría
Hay diferentes estadísticos que sirven para detectar asimetría. Basado en diferencia entre estadísticos de tendencia central. Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º. Basados en desviaciones con signo respecto a la media. En este se basa SPSS. No lo calcularemos manualmente en este curso. En función del signo del estadístico diremos que la asimetría es positiva o negativa. Distribución simétrica  asimetría nula. La asimetría es adimensional. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

82 Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional. Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0 Los gráficos que veis poseen la misma media y desviación típica, pero con diferente grado de apuntamiento. En el curso serán de especial interés las mesocúrticas y simétricas (parecidas a la normal). Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

83 Ejercicio: descriptiva con SPSS
Está sombreado lo que sabemos interpretar hasta ahora. Verifica que comprendes todo. ¿Qué unidades tiene cada estadístico? ¿Variabilidad relativa? Calcula los estadísticos que puedas basándote sólo en el gráfico de barras. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

84 ¿Utilidad de los Boxplot lado a lado?
Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

85 ¿Utilidad de los Boxplot lado a lado?
Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

86 ¿Utilidad de los Boxplot lado a lado?
Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

87 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

88 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

89 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

90 Cifras significativas y propagación del Error
Bevington y Robinson, pág 4: DATA REDUCTION AND ERROR ANALYSIS FOR THE PHYSICAL SCIENCES El dígito no nulo del extremo izquierdo es el más significativo. Si no existe punto decimal, el dígito no nulo del extremo derecho es el menos significativos. Si existe un punto decimal, el dígito del extremo derecho es el menos significativo. Todos los dígitos entre el extremo derecho y el izquierdo cuentan como significativos. Philip R. Bevington D. Keith Robinson SECOND EDITION 1992 Philip R. Bevington D. Keith Robinson SECOND EDITION 1992 Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

91 Cifras significativas
¿Cuántas cifras significativas se deben informar? Todos los números que siguen tienen cuatro dígitos significativos (o cifras): 1234, , 1001, 1000., 10.10, , 100.0 Es mejor escribir en notación científica con el número apropiado de dígitos: 1.010x10-4 Para los cálculos, conservar un dígito más que el número de cifras significativas. La incerteza define el número de dígitos significativos Es inadecuado informar Debido a la propagación del error, el número de cifras significativas puede que no aumente con los cálculos. En los cálculos, se puede arrastrar una cifra significativa adicional para justificar certeza de los cálculos. Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

92 Salarios de Ingreso a la Administración por Sexo
Histograma de frecuencias de salarios de ingreso a la administración por sexo. US$ 4000 US$ 5000 US$ 6000 US$ 7000 US$ 8000 HOMBRES MUJERES Salarios de Ingreso por sexo (en miles de US$ ) Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

93 Diagramas de Cajas Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual

94 Gráficos de Cajas (Con SPSS)
SPSS permite identificación de los outliers (observaciones inusuales) Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

95 Además de los planteados
Tarea: Aguzar la vista Ejercicios Cap I, Sec II: Prob: 10, 12, 22,24 Sec III: Los ya dados Sec IV: Nos 44, 54, 56, 58, 62 Además de los planteados Tareas Cap 01 Sec 1.3 y 1.4 Prof. Heriberto Figueroa S. Material de clases para estudio individual

96 Viene Probabilidad Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual


Descargar ppt "Estadística Descriptiva Capítulo : Medidas de Localización"

Presentaciones similares


Anuncios Google