Probabilidad y Estadística

Slides:



Advertisements
Presentaciones similares
Lic. Cristian R. Arroyo López
Advertisements

Medidas de centralización para datos no agrupados
Descripción de los datos: medidas de dispersión
MÉTODOS ESTADÍSTICOS.
Capítulo 4 Otras medidas descriptivas
Capítulo 3 Descripción de datos, medidas de tendencia central
Capítulo 3: Medidas de posición
DIRECCIÓN DE ESTADÍSTICAS DE LA PROVINCIA
FRANCISCO JAVIER RODRÍGUEZ
Introducción Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que junto a una medida que indique el valor alrededor del cual.
Curso de Estadística Básica
Medidas de Dispersión Estadística E.S.O.
Bioestadística III. Escala cuantitativa. n Cuando la escala de medición es cuantitativa, y el análisis requiere un solo valor numérico que resuma alguna.
MEDIDAS DE TENDENCIA CENTRAL
Facultad: Turismo Y Hotelería
Estadística Descriptiva
Estadística Descriptiva
Estadística Descriptiva continuación
Copyright ©2006 Brooks/Cole A division of Thomson Learning, Inc. Probabilidad y Estadística Robert J. Beaver Barbara M. Beaver William Mendenhall Presentación.
Datos: Estadística.
Tema 2: Parámetros Estadísticos
ESTADÍSTICAS DESCRIPTIVA
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Medidas de Variabilidad
Coeficiente de Variación
Fundamentos Matemáticos Medidas de tendencia central
Laboratorio de Estadística administrativa
MEDIDAS DE VALOR CENTRAL
ESTADÍSTICA DESCRIPTIVA
Tratamiento de datos y azar
TABLAS DE FRECUENCIAS Una vez recopilados, tendremos un conjunto de datos que será necesario organizar para extraer información. Lo primero que se hace.
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
INFERENCIA ESTADISTICA
Medidas de dispersión.
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
¿QUÉ ES LA ESTADÍSTICA? La estadística es una disciplina que diseña los procedimientos para la obtención de los datos, como asimismo proporciona las herramientas.
Estadística 1. Recuento de datos. Tablas de frecuencias
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
Estadística Al hacer Un sondeo de opinión
Qué es una Variable Aleatoria??????????
Describir una variable numérica
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
Descripción de los datos: medidas de dispersión
Diapositivas de matemáticas
ANALISIS ,GRAFICOS Y MEDIDAS ESTADISTICAS
1-1 Capítulo dos Descripción de los datos: distribuciones de frecuencias y representaciones gráficas OBJETIVOS Al terminar este capítulo podrá: UNO Organizar.
Descripción de los datos: medidas de ubicación
Medidas de Dispersión.
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
Estadística Básica Conceptos & Aplicaciones
Métodos Cuantitativos
Análisis de los Datos Cuantitativos
ESTADÍSTICA UNIDIMENSIONAL
PRESENTACIÓN DE TRABAJO DE APLICACIÓN DE LA ESTADÍSTICA. Alumno: Manuel Fernández González Profesor: Óscar Vergara Marambio.
MEDIDAS DE TENDENCIA CENTRAL
Características de las distribuciones estadísticas
Capítulo 10 Análisis de los datos.
DEFINICIÓN DE NORMALIDAD MEDIDAS DE DESCRIPCIÓN DE DATOS
10. Estimación puntual e intervalos de confianza Módulo II: Análisis descriptivo univariado Análisis de Datos Aplicado a la Investigación Científica
ESTADÍSTICA DESCRIPTIVA
Coeficiente de variación
DIPLOMADO DE POSTGRADO
Describiendo los Datos, Usando Medidas Numéricas
Estadística descriptiva
Estadística descriptiva
Medidas de posición y dispersión IV medio
Estadística y probabilidad aplicada a los negocios
LOGO Medidas de posición Pedro Godoy G. Media Aritmética Valor representativo de un conjunto de datos Para datos no agrupados 1, x2, x3, x4,…………………………,
Medidas de tendencia central
Transcripción de la presentación:

Probabilidad y Estadística Robert J. Beaver • Barbara M. Beaver • William Mendenhall Presentación diseñada y escrita por: Barbara M. Beaver

Introducción a la probabilidad y estadística Capítulo 2 Describiendo conjuntos de datos con medidas numéricas Some graphic screen captures from Seeing Statistics ® Some images © 2001-(current year) www.arttoday.com 

Describiendo conjuntos de datos con medidas numéricas Los métodos gráficos pueden no ser suficientes para describir conjuntos de datos. Las medidas numéricas pueden ser generadas para poblaciones y muestras. Un parametro es una medida numérica descriptiva calculada en base a la población. Una estadística es una medida numérica descriptiva calculada en base a la muestra.

Medidas de tendencia central Es una medida que se localiza al centro de la distribución de datos, es decir, en el intervalo de mayor acumulación de datos

Media aritmética o Promedio La media de un conjunto de datos es la suma de las medidas divididas entre el número total de datos. donde n = número de datos Suma de todos las medidas

Ejemplo Del conjunto: 2, 9, 11, 5, 6 Si la media es tomada del total de la población, la media obtenida se denomina media poblacional y se denota con el símbolo m.

Mediana Una vez que las medidas (datos) han sido ordenadas. La mediana de un conjunto de datos es la medida localizada justo en el centro del conjunto de datos ordenados de menor a mayor. La posición de la mediana es .5(n + 1) Una vez que las medidas (datos) han sido ordenadas.

Ejemplo Dado el conjunto: 2, 4, 9, 8, 6, 5, 3 n = 7 Ordenados: 2, 3, 4, 5, 6, 8, 9 Posición: 0.5(n + 1) = 0.5(7 + 1) = 40 Mediana = 4a medida más grande Dado el conjunto: 2, 4, 9, 8, 6, 5 n = 6 Ordenados: 2, 4, 5, 6, 8, 9 Posición: 0.5(n + 1) = 0.5(6 + 1) = 3.5avo Mediana = (5 + 6)/2 = 5.5 — promedio de la 3a y 4a medida

Moda La moda es la medida (dato) que ocurre con más frecuencia. Dado el conjundo: 2, 4, 9, 8, 8, 5, 3 La moda es 8, la cual ocurre dos veces Dado el conjunto: 2, 2, 9, 8, 8, 5, 3 Tenemos dos modas – 8 y 2 (bimodal) Dado el conjunto: 2, 4, 9, 8, 5, 3 no hay moda (cada valor es único).

El número de botes de leche comprados por 25 amas de casa: Ejemplo El número de botes de leche comprados por 25 amas de casa: 0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3 3 3 4 4 4 5 Media? Mediana? Moda? (Pico más alto)

Valores extremos La media es fácilmente afectada por valores extremos (grandes o pequeños). Por lo tanto… La mediana es comúnmente utilizada como la medida de tendencia central mas adecuada para representar al conjunto de datos en estos casos

Valores extremos Composición simétrica: Media = Mediana Composición sesgada a la izq: Media > Mediana Composición sesgada a la der: Media < Mediana

Medidas de Dispersión Son medidas que describen la distribución del conjunto de datos con respecto al centro del mismo.

El Rango El rango, R, de un conjunto de n datos, es la diferencia entre el mayor y el menor de los datos. Ejemplo: Un botánico registra el número de pétalos en 5 flores: 5, 12, 6, 8, 14 El rango es R = 14 – 5 = 9. Rápido y fácil, pues sólo utilizas 2 de los 5 datos.

La Varianza La varianza es la medida de dispersión que mide el promedio del cuadrado de las desviaciones de las medidas con respecto a la media. Pétalos: 5, 12, 6, 8, 14 4 6 8 10 12 14

La Varianza La varianza de una población de N medidas (datos) es el promedio del cuadrado de las desviaciones de los datos con respecto a su media m. La varianza de una muestra de n medidas (datos) es la suma del cuadrado de las desviaciones de los datos con respecto a su media , dividido entre (n – 1).

La Desviación Estándar Al calcular la varianza, elevamos al cuadrado las desviaciones de cada dato con respecto a la media, lo cual magnificó el promedio de dichas desviaciones. Para regresar esta medida a su unidad de variabilidad original, calculamos desviación típica (standard), que es la raíz cuadrada positiva de la varianza.

Dos formas para calcular la varianza de la muestra Utiliza la definición: x 5 -4 16 12 3 9 6 -3 8 -1 1 14 25 Sum 45 60

Dos formas para calcular la varianza de la muestra Utiliza esta formula alternativa: x 5 25 12 144 6 36 8 64 14 196 Sum 45 465

Algunas notas El valor de s SIEMPRE es positivo. Cuanto más grande es el valor de s2 o s, mayor es la variabilidad del conjunto de datos. Por qué dividimos entre n –1? La desviación estándar de la muestra s es comúnmente utilizada para estimar la desviación estándar de la población s. Y dividir entre n –1 proporciona mejores estimaciones de s.

El Teorema de Chevyshev Dado un número k mayor o igual a 1 y un conjunto de n mediciones, al menos 1-(1/k2) de las mediciones estarán dentro de k desviaciones estándar de su media. Puede ser utilizado tanto para muestras ( and s) como para poblaciones (m and s). Resultados importantes: Si k = 2, al menos 1 – 1/22 = 3/4 de las medidas están dentro de 2 desviaciones estándar de la media. Si k = 3, al menos 1 – 1/32 = 8/9 de las medidas están dentro de 3 desviaciones estándar de la media.

Utilizando Medidas de Tendencia Central y de Dispersión: La regla empírica Dada una distribución de datos de forma de pico (simétrica): El intervalo m  s contiene aproximadamente 68% de las medidas. El intervalo m  2s contiene aproximadamente 95% de las medidas. El intervalo m  3s contiene aproximadamente 99.7% de las medidas.

Ejemplo La edad de los 50 profesores de cierta universidad. Forma? 34 48 70 63 52 52 35 50 37 43 53 43 52 44 42 31 36 48 43 26 58 62 49 34 48 53 39 45 34 59 34 66 40 59 36 41 35 36 62 34 38 28 43 50 30 43 32 44 58 53 Forma? Sesgada a la izq.

Si. El Teorema de Chevyshev son ciertas en todo el conjunto de datos. k ks Intervalo Proporción en el Intervalo Chevyshev Regla empírica 1 44.9 10.73 34.17 to 55.63 31/50 0(.62) Al menos 0 0 .68 2 44.9 21.46 23.44 to 66.36 49/50 (0.98) Al menos 0.75 0 .95 3 44.9 32.19 12.71 to 77.09 50/50 (1.00) Al menos 0.89  0.997 Si. El Teorema de Chevyshev son ciertas en todo el conjunto de datos. Las proporciones reales en los tres intervalos concuerdan con los establecidos por el Teorema de Chevyshev ? Concuerdan con la Regla Empírica? Por qué sí o por qué no? No. No muy bien. La distribución de los datos no está centrada sino sesgada a la izq.

Ejemplo El tiempo que un trabajador tarda en completar cierto trabajo promedia 12.8 minutos con una desviación estándar de 1.7 minutos. Si la distribución tiene aproximadamente una forma de pico, qué porcentaje de trabajadores les llevará más de 16.2 minutos completar el trabajo? .475 95% entre 9.4 y 16.2 47.5% entre 12.8 y 16.2 (50-47.5)% = 2.5% arriba de 16.2 .025

Medidas de Posición relativa Cuál es la posición de un dato en particular con respecto al los otros datos del conjunto? A cuántas desviaciones estándar de la media se encuentra un dato? Esto puede obtenerse por la puntuación-z. Suponemos que s = 2. s 4 s s x = 9 está a z =2 desv. std. de la media.

Puntuación - z Del teorema de Chevyshev y de la Regla Empìrica tenemos que: Al menos 3/4 y aprox. 95% de los datos están dentro de 2 desviaciones estándar de la media. Al menos 8/9 y aprox. 99.7% de los datos están dentro de 3 desviaciones estándar de la media. Una puntuación – z entre –2 y 2 es usual. Una puntuación – z no deberían estár más allá de 3 o – 3. Puntuaciones - z mayores de 3 en valor absoluto podrían indicar un posible valor atípico. V. atípico Usual z -3 -2 -1 0 1 2 3 Algo inusuales

Medidas de Posición relativa Cuántos datos están por debado de un dato de interés? Esto se mide por el p-ésimo percentil. x (100-p) % p % p-ésimo percentil

Ejemplos 90% de las personas (de 18 años o más) ganan más de $419 a la semana. 10% 90% $419 es el 10o percentil. $419 50o Percentil 25o Percentil 75o Percentil  Mediana  Cuartil inferior (Q1)  Cuartil superior (Q3)

Cuartiles y el RIC RIC = Q3 – Q1 El cuartil inferior (Q1) es el valor de x que es mayor que el 25% y menor que el 75% de los datos ordenados. El cuartil superior (Q3) es el valor de x que es mayor que el 75% y menor que el 25% de los datos ordenados. El rango del “50% central” de los datos es el rango intercuartil, RIC = Q3 – Q1

Calculando cuartiles de una muestra Los cuartiles inferior y superior (Q1 y Q3) pueden ser calculados de la siguiente forma: La posición del Q1 es 0.25(n + 1) 0.75(n + 1) La posición del Q3 es una vez que los datos han sido ordenados. Si estas posiciones no son números enteros, los cuartiles se encuentran por interpolación.

Ejemplo Los precios (en US $) de 18 marcas de zapatos casuales 40 60 65 65 66 68 68 68 70 70 70 70 70 70 74 75 90 95 Posición del Q1 = 0.25(18 + 1) = 4.75 El Q1 está a 3/4 del trayecto entre el 4o y 5o dato ordenado, es decir, Q1 = 65 + 0.75(66 – 65) = 65.75

Ejemplo Los precios (en US $) de 18 marcas de zapatos casuales 40 60 65 65 66 68 68 68 70 70 70 70 70 70 74 75 90 95 Posición del Q3 = 0.75(18 + 1) = 14.25 El Q3 está a 1/4 del trayecto entre el 14o y 15o dato ordenado, es decir, Q3 = 70 + 0.25(74 – 70) = 71 y RIC = Q3 – Q1 = 71 – 65.75 = 5.25

Diagrama de caja y bigote El resúmen de los 5 números: Min Q1 Mediana Q3 Max Divide al conjunto de datos en cuatro conjuntos con igual número de medidas. Es un breve resúmen de la distribución de datos. Describe la forma de la distribución y detecta valores atípicos.

Cómo se construye el DCB Calcula el Q1, la mediana, el Q3 y el RIC. Traza una línea horizontal que represente la escala de medición. Traza una caja utilizando el Q1, la mediana, y el Q3. Q1 Q3

Como se construye el DCB Detecta los valores atípicos determinando: El límite inferior: Q1 – 1,5(RIC) El límite superior: Q3 + 1.5 (RIC) Las medidas que están más allá de los límites son valores atípicos y se marcan con un asterisco (*). Q1 Q3 *

Como se construye el DCB Traza los “bigotes” conectando los datos máximos y mínimos del conjunto de datos que NO sean valores atípicos con la caja. Q1 Q3 *

Ejemplo Cantidad de sodio en rebanadas de queso: 260 290 300 320 330 340 360 520 Q1 = 292.5 = 325 Q3 = 355 Q1 Q3

Ejemplo RIC = 355 – 292.5 = 62.5 Límite inferior = 292.5 – 1.5(62.5) = 198.25 Límite superior = 355 + 1.5(62.5) = 448.75 Valor atípico: x = 520 * min Q1 Q3 máx

Cómo interpretamos el DCB La línea Mediana en el centro de la caja y bigotes de igual longitud – distribuición simétrica La línea mediana a la izquierda del centro y bigote largo a la derecha – sesgada a la izquierda La línea mediana a la derecha del centro y bigote largo a la izquierda – sesgada a la derecha

Conceptos clave I. Medidas de Tendencia Central 1. Media artimética (media) o promedio a. De la población: m b. De una muestra de tamaño n: 2. Mediana: posición de la mediana = 0.5(n +1) 3. Moda 4. Se prefiere la mediana que la media si los datos están muy sesgados. II. Medidas de dispersión 1. Rango: R = dato mayor - dato menor

Conceptos clave 2. Varianza a. De una población de N datos: b. De una muestra de n datos: 3. Desviación estándar

Conceptos clave III. El Teorema de Chevyshev y la regla empírica 1. Utilizamos el Teorema de Chevyshev para cualquier conjunto de datos sin importar su forma o su tamaño. a. Al menos 1-(1/k 2 ) de los datos están a menos de k desviaciones estándar de la media. b. Este es sólo una cantidad mínima; podría haber más datos en el intervalo. 2. La Regla Empírica se utiliza sólo para conjuntos de datos que tienden a tener una forma de montículo o campana. Alrededor del 68%, 95%, y el 99.7% de los datos están a una, dos y tres desviaciones estándar de la media, respectivamente.

Conceptos clave IV. Medidas de posición relativa 1. Puntuación- z muestral: 2. p-ésimo percentil; p% de los datos son más pequeños, y (100 - p)% más grandes. 3. Cuartil inferior, Q 1; posición del Q 1 = 0.25(n +1) 4. Cuartil superior, Q 3 ; posición of Q 3 = 0.75(n +1) 5. Rango Intercuartil: RIC = Q 3 - Q 1 V. Diagramas de caja y bigote 1. El resúmen de los 5 números: Mínimo Q1 Mediana Q3 Máximo 1/4 de los datos del conjunto está entre cada uno de los 4 pares adyacentes de números.

Conceptos clave 2. Los diagramas de caja y bigotes son utilizados para detectar valores atípicos y para determinar la forma de la distribución. 3. Q 1 y Q 3 forman los extremos de la caja. La línea mediana está en su interior. 4. Los límites inferior y superior se utilizan para encontrar valores atípicos. a. Límite inferior: Q 1 - 1.5(RIC) b. Límite superior: Q 3 + 1.5(RIC) 5. Los Bigotes se conectan a la caja desde los datos mayor y menor que no son valores atípicos.