La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Probabilidad y Estadística

Presentaciones similares


Presentación del tema: "Probabilidad y Estadística"— Transcripción de la presentación:

1 Probabilidad y Estadística
Robert J. Beaver • Barbara M. Beaver • William Mendenhall Presentación diseñada y escrita por: Barbara M. Beaver

2 Introducción a la probabilidad y estadística
Capítulo 2 Describiendo conjuntos de datos con medidas numéricas Some graphic screen captures from Seeing Statistics ® Some images © 2001-(current year)

3 Describiendo conjuntos de datos con medidas numéricas
Los métodos gráficos pueden no ser suficientes para describir conjuntos de datos. Las medidas numéricas pueden ser generadas para poblaciones y muestras. Un parametro es una medida numérica descriptiva calculada en base a la población. Una estadística es una medida numérica descriptiva calculada en base a la muestra.

4 Medidas de tendencia central
Es una medida que se localiza al centro de la distribución de datos, es decir, en el intervalo de mayor acumulación de datos

5 Media aritmética o Promedio
La media de un conjunto de datos es la suma de las medidas divididas entre el número total de datos. donde n = número de datos Suma de todos las medidas

6 Ejemplo Del conjunto: 2, 9, 11, 5, 6 Si la media es tomada del total de la población, la media obtenida se denomina media poblacional y se denota con el símbolo m.

7 Mediana Una vez que las medidas (datos) han sido ordenadas.
La mediana de un conjunto de datos es la medida localizada justo en el centro del conjunto de datos ordenados de menor a mayor. La posición de la mediana es .5(n + 1) Una vez que las medidas (datos) han sido ordenadas.

8 Ejemplo Dado el conjunto: 2, 4, 9, 8, 6, 5, 3 n = 7
Ordenados: 2, 3, 4, 5, 6, 8, 9 Posición: 0.5(n + 1) = 0.5(7 + 1) = 40 Mediana = 4a medida más grande Dado el conjunto: 2, 4, 9, 8, 6, 5 n = 6 Ordenados: 2, 4, 5, 6, 8, 9 Posición: 0.5(n + 1) = 0.5(6 + 1) = 3.5avo Mediana = (5 + 6)/2 = 5.5 — promedio de la 3a y 4a medida

9 Moda La moda es la medida (dato) que ocurre con más frecuencia.
Dado el conjundo: 2, 4, 9, 8, 8, 5, 3 La moda es 8, la cual ocurre dos veces Dado el conjunto: 2, 2, 9, 8, 8, 5, 3 Tenemos dos modas – 8 y 2 (bimodal) Dado el conjunto: 2, 4, 9, 8, 5, 3 no hay moda (cada valor es único).

10 El número de botes de leche comprados por 25 amas de casa:
Ejemplo El número de botes de leche comprados por 25 amas de casa: Media? Mediana? Moda? (Pico más alto)

11 Valores extremos La media es fácilmente afectada por valores extremos (grandes o pequeños). Por lo tanto… La mediana es comúnmente utilizada como la medida de tendencia central mas adecuada para representar al conjunto de datos en estos casos

12 Valores extremos Composición simétrica: Media = Mediana
Composición sesgada a la izq: Media > Mediana Composición sesgada a la der: Media < Mediana

13 Medidas de Dispersión Son medidas que describen la distribución del conjunto de datos con respecto al centro del mismo.

14 El Rango El rango, R, de un conjunto de n datos, es la diferencia entre el mayor y el menor de los datos. Ejemplo: Un botánico registra el número de pétalos en 5 flores: 5, 12, 6, 8, 14 El rango es R = 14 – 5 = 9. Rápido y fácil, pues sólo utilizas 2 de los 5 datos.

15 La Varianza La varianza es la medida de dispersión que mide el promedio del cuadrado de las desviaciones de las medidas con respecto a la media. Pétalos: 5, 12, 6, 8, 14

16 La Varianza La varianza de una población de N medidas (datos) es el promedio del cuadrado de las desviaciones de los datos con respecto a su media m. La varianza de una muestra de n medidas (datos) es la suma del cuadrado de las desviaciones de los datos con respecto a su media , dividido entre (n – 1).

17 La Desviación Estándar
Al calcular la varianza, elevamos al cuadrado las desviaciones de cada dato con respecto a la media, lo cual magnificó el promedio de dichas desviaciones. Para regresar esta medida a su unidad de variabilidad original, calculamos desviación típica (standard), que es la raíz cuadrada positiva de la varianza.

18 Dos formas para calcular la varianza de la muestra
Utiliza la definición: x 5 -4 16 12 3 9 6 -3 8 -1 1 14 25 Sum 45 60

19 Dos formas para calcular la varianza de la muestra
Utiliza esta formula alternativa: x 5 25 12 144 6 36 8 64 14 196 Sum 45 465

20 Algunas notas El valor de s SIEMPRE es positivo.
Cuanto más grande es el valor de s2 o s, mayor es la variabilidad del conjunto de datos. Por qué dividimos entre n –1? La desviación estándar de la muestra s es comúnmente utilizada para estimar la desviación estándar de la población s. Y dividir entre n –1 proporciona mejores estimaciones de s.

21 El Teorema de Chevyshev
Dado un número k mayor o igual a 1 y un conjunto de n mediciones, al menos 1-(1/k2) de las mediciones estarán dentro de k desviaciones estándar de su media. Puede ser utilizado tanto para muestras ( and s) como para poblaciones (m and s). Resultados importantes: Si k = 2, al menos 1 – 1/22 = 3/4 de las medidas están dentro de 2 desviaciones estándar de la media. Si k = 3, al menos 1 – 1/32 = 8/9 de las medidas están dentro de 3 desviaciones estándar de la media.

22 Utilizando Medidas de Tendencia Central y de Dispersión: La regla empírica
Dada una distribución de datos de forma de pico (simétrica): El intervalo m  s contiene aproximadamente 68% de las medidas. El intervalo m  2s contiene aproximadamente 95% de las medidas. El intervalo m  3s contiene aproximadamente 99.7% de las medidas.

23 Ejemplo La edad de los 50 profesores de cierta universidad. Forma?
Forma? Sesgada a la izq.

24 Si. El Teorema de Chevyshev son ciertas en todo el conjunto de datos.
k ks Intervalo Proporción en el Intervalo Chevyshev Regla empírica 1 44.9 10.73 34.17 to 55.63 31/50 0(.62) Al menos 0 0 .68 2 44.9 21.46 23.44 to 66.36 49/50 (0.98) Al menos 0.75 0 .95 3 44.9 32.19 12.71 to 77.09 50/50 (1.00) Al menos 0.89  0.997 Si. El Teorema de Chevyshev son ciertas en todo el conjunto de datos. Las proporciones reales en los tres intervalos concuerdan con los establecidos por el Teorema de Chevyshev ? Concuerdan con la Regla Empírica? Por qué sí o por qué no? No. No muy bien. La distribución de los datos no está centrada sino sesgada a la izq.

25 Ejemplo El tiempo que un trabajador tarda
en completar cierto trabajo promedia 12.8 minutos con una desviación estándar de 1.7 minutos. Si la distribución tiene aproximadamente una forma de pico, qué porcentaje de trabajadores les llevará más de 16.2 minutos completar el trabajo? .475 95% entre 9.4 y 16.2 47.5% entre 12.8 y 16.2 ( )% = 2.5% arriba de 16.2 .025

26 Medidas de Posición relativa
Cuál es la posición de un dato en particular con respecto al los otros datos del conjunto? A cuántas desviaciones estándar de la media se encuentra un dato? Esto puede obtenerse por la puntuación-z. Suponemos que s = 2. s 4 s s x = 9 está a z =2 desv. std. de la media.

27 Puntuación - z Del teorema de Chevyshev y de la Regla Empìrica tenemos que: Al menos 3/4 y aprox. 95% de los datos están dentro de 2 desviaciones estándar de la media. Al menos 8/9 y aprox. 99.7% de los datos están dentro de 3 desviaciones estándar de la media. Una puntuación – z entre –2 y 2 es usual. Una puntuación – z no deberían estár más allá de 3 o – 3. Puntuaciones - z mayores de 3 en valor absoluto podrían indicar un posible valor atípico. V. atípico Usual z Algo inusuales

28 Medidas de Posición relativa
Cuántos datos están por debado de un dato de interés? Esto se mide por el p-ésimo percentil. x (100-p) % p % p-ésimo percentil

29 Ejemplos 90% de las personas (de 18 años o más) ganan más de $419 a la semana. 10% 90% $419 es el 10o percentil. $419 50o Percentil 25o Percentil 75o Percentil  Mediana  Cuartil inferior (Q1)  Cuartil superior (Q3)

30 Cuartiles y el RIC RIC = Q3 – Q1
El cuartil inferior (Q1) es el valor de x que es mayor que el 25% y menor que el 75% de los datos ordenados. El cuartil superior (Q3) es el valor de x que es mayor que el 75% y menor que el 25% de los datos ordenados. El rango del “50% central” de los datos es el rango intercuartil, RIC = Q3 – Q1

31 Calculando cuartiles de una muestra
Los cuartiles inferior y superior (Q1 y Q3) pueden ser calculados de la siguiente forma: La posición del Q1 es 0.25(n + 1) 0.75(n + 1) La posición del Q3 es una vez que los datos han sido ordenados. Si estas posiciones no son números enteros, los cuartiles se encuentran por interpolación.

32 Ejemplo Los precios (en US $) de 18 marcas de zapatos casuales Posición del Q1 = 0.25(18 + 1) = 4.75 El Q1 está a 3/4 del trayecto entre el 4o y 5o dato ordenado, es decir, Q1 = (66 – 65) = 65.75

33 Ejemplo Los precios (en US $) de 18 marcas de zapatos casuales Posición del Q3 = 0.75(18 + 1) = 14.25 El Q3 está a 1/4 del trayecto entre el 14o y 15o dato ordenado, es decir, Q3 = (74 – 70) = 71 y RIC = Q3 – Q1 = 71 – = 5.25

34 Diagrama de caja y bigote
El resúmen de los 5 números: Min Q1 Mediana Q3 Max Divide al conjunto de datos en cuatro conjuntos con igual número de medidas. Es un breve resúmen de la distribución de datos. Describe la forma de la distribución y detecta valores atípicos.

35 Cómo se construye el DCB
Calcula el Q1, la mediana, el Q3 y el RIC. Traza una línea horizontal que represente la escala de medición. Traza una caja utilizando el Q1, la mediana, y el Q3. Q1 Q3

36 Como se construye el DCB
Detecta los valores atípicos determinando: El límite inferior: Q1 – 1,5(RIC) El límite superior: Q (RIC) Las medidas que están más allá de los límites son valores atípicos y se marcan con un asterisco (*). Q1 Q3 *

37 Como se construye el DCB
Traza los “bigotes” conectando los datos máximos y mínimos del conjunto de datos que NO sean valores atípicos con la caja. Q1 Q3 *

38 Ejemplo Cantidad de sodio en rebanadas de queso:
Q1 = 292.5 = 325 Q3 = 355 Q1 Q3

39 Ejemplo RIC = 355 – = 62.5 Límite inferior = – 1.5(62.5) = Límite superior = (62.5) = Valor atípico: x = 520 * min Q1 Q3 máx

40 Cómo interpretamos el DCB
La línea Mediana en el centro de la caja y bigotes de igual longitud – distribuición simétrica La línea mediana a la izquierda del centro y bigote largo a la derecha – sesgada a la izquierda La línea mediana a la derecha del centro y bigote largo a la izquierda – sesgada a la derecha

41 Conceptos clave I. Medidas de Tendencia Central
1. Media artimética (media) o promedio a. De la población: m b. De una muestra de tamaño n: 2. Mediana: posición de la mediana = 0.5(n +1) 3. Moda 4. Se prefiere la mediana que la media si los datos están muy sesgados. II. Medidas de dispersión 1. Rango: R = dato mayor - dato menor

42 Conceptos clave 2. Varianza a. De una población de N datos:
b. De una muestra de n datos: 3. Desviación estándar

43 Conceptos clave III. El Teorema de Chevyshev y la regla empírica
1. Utilizamos el Teorema de Chevyshev para cualquier conjunto de datos sin importar su forma o su tamaño. a. Al menos 1-(1/k 2 ) de los datos están a menos de k desviaciones estándar de la media. b. Este es sólo una cantidad mínima; podría haber más datos en el intervalo. 2. La Regla Empírica se utiliza sólo para conjuntos de datos que tienden a tener una forma de montículo o campana. Alrededor del 68%, 95%, y el 99.7% de los datos están a una, dos y tres desviaciones estándar de la media, respectivamente.

44 Conceptos clave IV. Medidas de posición relativa
1. Puntuación- z muestral: 2. p-ésimo percentil; p% de los datos son más pequeños, y (100 - p)% más grandes. 3. Cuartil inferior, Q 1; posición del Q 1 = 0.25(n +1) 4. Cuartil superior, Q 3 ; posición of Q 3 = 0.75(n +1) 5. Rango Intercuartil: RIC = Q 3 - Q 1 V. Diagramas de caja y bigote 1. El resúmen de los 5 números: Mínimo Q1 Mediana Q3 Máximo 1/4 de los datos del conjunto está entre cada uno de los 4 pares adyacentes de números.

45 Conceptos clave 2. Los diagramas de caja y bigotes son utilizados para detectar valores atípicos y para determinar la forma de la distribución. 3. Q 1 y Q 3 forman los extremos de la caja. La línea mediana está en su interior. 4. Los límites inferior y superior se utilizan para encontrar valores atípicos. a. Límite inferior: Q (RIC) b. Límite superior: Q (RIC) 5. Los Bigotes se conectan a la caja desde los datos mayor y menor que no son valores atípicos.


Descargar ppt "Probabilidad y Estadística"

Presentaciones similares


Anuncios Google