La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Inferencia Estadística

Presentaciones similares


Presentación del tema: "Inferencia Estadística"— Transcripción de la presentación:

1 Inferencia Estadística
Módulo I

2 Inferencia Estadística
Estimación : Estimación puntual Propiedades de los estimadores Estimación por intervalos para la media, proporción, diferencia de medias y diferencia de proporciones, usando la distribución normal.

3 Inferencia Estadística
Contraste de Hipótesis Fundamentos de la contrastación de hipótesis Formulación de hipótesis. Hipótesis simple y compuesta Tipos de errores en la contrastación. Etapas para la contrastación de hipótesis. Contraste de hipótesis para la media, proporción, diferencia de medias, y diferencia de proporciones. Relación entre los intervalos de confianza y la contrastación de hipótesis.

4 Inferencia Estadística
Descriptiva Inferencial Organización de Datos Medidas de Tendencia, Posición, variación. Representación gráfica. Estimación Contraste de Hipótesis Puntual Por Intervalos

5 Inferencia Estadística
Métodos mediante los cuales se selecciona una muestra aleatoria de una población intentando: Hallar el verdadero valor del parámetro desconocido Decidir si alguna función de la muestra es igual a algún valor preconcebido

6 Inferencia Estadística: Conceptos.
Población: Colección de todas las posibles mediciones que pueden hacerse de una característica en estudio. (datos o valores). Muestra: Subconjunto de la población. Parámetro: Caracterización numérica de la distribución de la población de manera que describe, parcial o completamente, la función de densidad de la característica de interés.

7 Inferencia Estadística: Conceptos.
Estadístico: Cualquier función de variables aleatorias que forman una muestra aleatoria. Estimador: función de variables aleatorias observables (muestra) y quizás otras constantes conocidas usados para estimar un valor poblacional (Parámetro).

8 Inferencia Estadística.
Población. Valores Muestrales 𝑥 Muestra. Inferencia. Estimación. Edades. Hab. Municipio Libertador. Edad Promedio Valores Poblacionales (Parámetros).

9 Inferencia Estadística: Conceptos.
Estimación: Proceso mediante el cual se utiliza los resultados de una muestra representativa para estimar el verdadero valor del parámetro poblacional Se quiere estimar la edad promedio de los habitantes del Municipio Libertador del Estado Mérida.

10 Inferencia Estadística.
Ejemplo: Variable en Estudio:_____________________ Universo:____________________________ Población:___________________________ Muestra:_____________________________ Parámetro:___________________________ Estimador:____________________________ Edad Habitantes del Municipio Libertador Las edades de los Habitantes del Mun. Lib Edad del los habitantes de Ejido 𝜇 Media Poblacional 𝑋 Media Muestral

11 Inferencia Estadística.
Propiedades de un Estimador: Suficiente: Incluye toda la información de la muestra. Insesgado: E( )= Consistencia: A medida que se incrementa la muestra el estimador se acerca al verdadero valor del parámetro. Varianza Mínima. ᶿ ᶿ

12 Inferencia Estadística.
ᶿ Teorema: Sea un estimador de con base en una muestra de tamaño n si y entonces es un estimador consistente de ᶿ lim 𝑛 E( )= ᶿ ᶿ lim 𝑛 V( )= ᶿ

13 Inferencia Estadística.
Algunos Estimadores Importantes: Muestral Poblacional 𝑋 𝑝 P σ 2 𝑆 2 σ 𝑆

14 Inferencia Estadística.
Estimación Puntual: Una estimación puntual de algún parámetro de la población consta de un solo valor ᶿ ᶿ ᶿ Parámetros Poblacionales Estimadores

15 Inferencia Estadística.
Ejemplo: Se quiere estimar el tiempo promedio de reacción ante un estimulante de pacientes con cáncer en el estado Mérida para ello se levanto una muestra y se registraron los tiempos de reacción 2,5 3,6 3,1 4,3 2,9 2,3 2,6 4,1 3,4

16 Inferencia Estadística.
Estimación por Intervalos: Es difícil que el estimador insesgado más eficiente estime con exactitud el verdadero valor del parámetro poblacional Determinar un intervalo en el que, en forma probable Se encuentra el valor del parámetro. Intervalos de Confianza: ᶿl < ᶿ< ᶿu

17 Inferencia Estadística.
Estimación por Intervalos: Supóngase que una tienda mantiene muy buenos registros respecto al número de unidades de cierto producto que vende mensualmente. Para la compañía es muy importante conocer la demanda promedio ya que con base en esta, se lleva a cabo el mantenimiento del inventario.

18 Inferencia Estadística.
Estimación por Intervalos: Suponga que la demanda no se ve afectada por fluctuaciones En la temporada. La compañía decide que los últimos 36 meses han sido típicos Con respecto a la demanda de ese producto, y con base a estos Datos muestrales el valor calculado de la media muestral es de 200 unidades

19 Inferencia Estadística.
Estimación por Intervalos: ¿Implica que la demanda media desconocida no sea mayor de 250 ni menor a 150? Suponga que la desviación estándar de la media muestral es de 60 Unidades

20 𝑛−→+00 Inferencia Estadística. 𝑍= 𝑋 −𝜇 𝜎 𝑛 𝑁(0,1)
Estimación por Intervalos: Teorema Central del Límite: Si 𝑋 es la media de una muestra aleatoria de tamaño n que se toma de una de una población que se toma con media 𝜇 y varianza 𝜎 2 entonces: 𝑍= 𝑋 −𝜇 𝜎 𝑛 𝑁(0,1) 𝑛−→+00

21 𝑋 + − 𝑍 1− 𝛼 2 𝜎 𝑛 Inferencia Estadística.
Intervalos de Confianza para 𝜇 con varianza conocida: 𝑋 + − 𝑍 1− 𝛼 2 𝜎 𝑛

22 Inferencia Estadística.
Estimación por Intervalos: El consumo de gasolina de los vehículos de una empresa en litros/día , durante un periodo de 36 días elegidos al azar durante el año 2012, es el siguiente:

23 Inferencia Estadística.

24 Inferencia Estadística.
Se sabe que el consumo de la empresa sigue una ley normal cuya varianza es de 1600. a) Determinar un intervalo para estimar el consumo medio diario durante el 2012 con un nivel de confianza del 95% y 99%.

25 Inferencia Estadística.
Promedio 4000 Desviacion 40, n 36 Alfa 0,01 Alfa/2 0,005 1-alfa/2 0,995 Z 2,57 Error Máximo 17, LS 4017,33707 LI 3982,66293 𝑃 3982,66<𝜇<4017,33 =0.99 Con un 99% de confianza se espera que el verdadero tiempo promedio se encuentre en el intervalo calculado

26 𝑛= 𝑍 1− 𝛼 2 ∗𝜎 𝜀 2 Inferencia Estadística.
Calculo del tamaño de muestra: Teorema: Si se usa 𝑋 como estimación de 𝜇 , se puede tener 1−𝛼 ∗100% de confianza de que el error no excederá una cantidad específica 𝜀 cuando el tamaño de la muestra sea: 𝑛= 𝑍 1− 𝛼 2 ∗𝜎 𝜀 2

27 Inferencia Estadística.
¿Cuál ha de ser el tamaño mínimo de la muestra para que el error no supere los 10 litros/día con la misma confianza del 99%? 𝜖=10 n= ∗ =108 𝑍 1− 𝛼 2 =2.57 𝜎=40

28 𝑋 + − 𝑡 1−𝛼/2, 𝑛−1 𝑠 𝑛 Inferencia Estadística. 𝑍= 𝑋 −𝜇 𝑠 𝑛 𝑡 1−𝛼/2,𝑛−1
Intervalos de Confianza para 𝜇 con varianza desconocida: 𝑍= 𝑋 −𝜇 𝑠 𝑛 𝑡 1−𝛼/2,𝑛−1 𝑋 + − 𝑡 1−𝛼/2, 𝑛−1 𝑠 𝑛

29 Inferencia Estadística.
La puntuación de una muestra de 20 jueces de gimnasia rítmica, elegidos al azar, para una misma prueba presentó los siguientes puntajes:

30 Inferencia Estadística.
Calcular un intervalo de confianza con un 95% y 99% para la puntuación promedio 𝑋 + − 𝑡 1−𝛼/2, 𝑛−1 𝑠 𝑛 Promedio 9,81 n 20 Desv 0, alfa 0,01 alfa/2 0,005 1- alfa/2 0,995 t 2,861 Error Máximo 0, LS 9, LI 9, 𝑃 9.75<𝜇<9.87 =0.99 Con un 99% de confianza se espera que el verdadero tiempo promedio se encuentre en el intervalo calculado

31 Inferencia Estadística.
Intervalos de confianza para la diferencia de medias de dos poblaciones normales independientes: 𝑋 − 𝑌 𝑍 1−𝛼/2 𝜎 2 𝑛 𝑥 + 𝜎 2 𝑛 𝑦

32 Inferencia Estadística.
Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas. El proceso de llenado puede suponerse normal, con desviaciones estándar de σ1=0,015 y σ2=0,015. Ingeniería de calidad sospecha que ambas máquinas llenan hasta el mismo volumen neto, sin importar que este volumen sea o no de 16 onzas. Se toma una muestra aleatoria de la salida de cada máquina. máquina 1 16,03 16,04 16,05 16,02 16,01 15,96 15,98 15,99 máquina 2 15,97 16

33 Inferencia Estadística.
Promedio 16,015 16,005 n 10 Desv 0,015 Var 0,000225 alfa 0,05 alfa/2 0,025 1- alfa/2 0,975 Error Máximo 0, LS 0, LI -0,

34 Inferencia Estadística.
Intervalos de confianza para la diferencia de medias de dos poblaciones normales independientes: (Varianzas Desconocida pero se suponen iguales) 𝑋 − 𝑌 𝑡 𝛼 2 ;𝑛1+𝑛2−2; 𝑆𝑝 1 𝑛 𝑥 𝑛 𝑦 𝑆 𝑝 = 𝑛 𝑥 −1 𝑆 2 𝑥 + 𝑛 𝑦 −1 𝑆 2 𝑦 𝑛 𝑥 + 𝑛 𝑦 −2

35 Inferencia Estadística.
Las presiones criticas de dos grupos independientes de recipientes de distintos vidrios dan los siguientes valores: Suponiendo que las dos poblaciones son normales y de varianzas iguales y desconocidas, calcular un intervalo de confianza del 95% para la diferencia de presiones medias.

36 Inferencia Estadística.
𝑋 − 𝑌 𝑡 𝛼/2 ;𝑛𝑖+𝑛2−2; 𝑆𝑝∗ 1 𝑛 𝑥 𝑛 𝑦 𝑆 𝑝 = 𝑛 𝑥 −1 𝑆 2 𝑥 + 𝑛 𝑦 −1 𝑆 2 𝑦 𝑛 𝑥 + 𝑛 𝑦 −2

37 Inferencia Estadística.
Promedio 105,8 97,2 n 10 Var 78, 22,4 alfa 0,05 alfa/2 0,025 1- alfa/2 0,975 t 2,1 Sp 7, Error Máximo 6, LS 15, LI 1,

38 𝑝 𝑁 𝑃; 𝑝𝑞 𝑛 Inferencia Estadística.
Intervalos de Confianza para la Proporción: 𝑝 𝑁 𝑃; 𝑝𝑞 𝑛 𝑝 + 𝑍 1−𝛼/2 𝑝𝑞 𝑛

39 Inferencia Estadística.
Tomada, al azar, una muestra de 120 estudiantes de una Universidad, se encontró que 54 de ellos hablaban inglés. Halle, con un nivel de confianza del 90%, un intervalo de confianza para estimar la proporción de estudiantes que hablan el idioma inglés entre los estudiantes de esa Universidad.

40 Inferencia Estadística.

41 Inferencia Estadística.
Intervalos de Confianza para la Diferencia de Proporciones: 𝑝 1− 𝑝 𝑍 1−𝛼/ 𝑝 1 𝑞 1 𝑛 𝑝 2 𝑞 2 𝑛 2

42 Inferencia Estadística.
La fracción de productos defectuosos producidos por dos líneas de producción se está analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en tanto que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas.

43 Inferencia Estadística.
Contraste de Hipótesis: Técnica Estadística la cual se usa para tomar decisiones sobre la población, se Establecen Hipótesis sobres los parámetros y luego se contrastan para aceptar o rechazar dichas Hipótesis

44 Inferencia Estadística.
Hipótesis Estadística: Es una suposición concerniente a una o más distribuciones poblacionales, es decir a uno o más parámetros de la población. Esta suposición es considerada una hipótesis ya que está referida a una situación que puede ser o no ser verdadera.

45 Inferencia Estadística.
𝐻 0 : Hipótesis Nula: Nulifica el efecto de la variable en estudio, ausencia de los efectos de la variable que se investiga. Hipótesis Alternativa: Variación de los valores que prevalecerían si la variable que se estudia ejerce algún efecto. (Pregunta que debe responderse, teoría que debe probarse.) 𝐻 0 :

46 Inferencia Estadística.
Un proceso manufacturero usado en una fábrica durante los últimos años da una producción media de 100 unidades por hora, con una desviación estándar de 8 unidades, se acaba de introducir en el mercado una nueva máquina para realizar este tipo de producto. Aunque es muy cara comparada con la que esta en uso, si la media de producción de la nueva maquina es de más d e150 unidades por hora, su adopción daría bastantes beneficios. Para decidir si se debiera comprar la nueva máquina, la gerencia de la fábrica compra 35 de esas máquinas como un experimento. Establezca la hipótesis nula y la alternativa.

47 Inferencia Estadística.
Espacio paramétrico: Conjunto de todos los posibles valores que puede asumir Es una un cierto parámetro poblacional, no conocido, respecto al cual se hace una cierta hipótesis. Cuando se plantea una hipótesis lo que se hace es particionar el espacio paramétrico en dos sub espacios.

48 Inferencia Estadística.
Tipos de Hipótesis: Hipótesis Simple: El Sub espacio paramétrico contiene un solo punto 𝜇=120 Hipótesis Compuesta: El Sub espacio paramétrico contiene más de un punto 𝜇>120

49 Inferencia Estadística.
Tipos de Errores que se cometen en una formulación de Hipótesis: Error Tipo I:Rechazar H0 cuando esta es cierta Error Tipo I:Aceptar H0 cuando esta es falsa. Ho Cierta Ho Falsa No Rechace Ho Correcta Error Tipo II Rechace Ho Error Tipo I

50 Inferencia Estadística.
Pasos a Seguir en el contraste de Hipótesis: 1. Formulación de Hipótesis: 𝐻 0 : 𝜃= 𝜃 0 𝐻 0 : 𝜃< 𝜃 0 𝐻 0 : 𝜃< 𝜃 0 𝐻 1 : 𝜃< 𝜃 0 𝐻 1 : 𝜃≥ 𝜃 0 𝐻 1 : 𝜃≠ 𝜃 0

51 𝛼 𝑍 𝑐 = 𝜃− 𝜃 𝜎 𝜃 Inferencia Estadística. 2. Nivel de Significancia:
3. Estadístico de Prueba: 𝑍 𝑐 = 𝜃− 𝜃 𝜎 𝜃 3. Estadístico de Prueba:

52 Inferencia Estadística.
4. Regla de Decisión: Rechazar Ho Ssi: 𝐻 0 : 𝜃= 𝜃 0 𝐻 1 : 𝜃< 𝜃 0 𝑍 𝑐 < 𝑍 𝛼

53 Inferencia Estadística.
𝐻 0 : 𝜃< 𝜃 0 𝐻 1 : 𝜃≥ 𝜃 0 𝑍 𝑐 > 𝑍 𝛼

54 Inferencia Estadística.
𝐻 0 : 𝜃< 𝜃 0 𝐻 1 : 𝜃≠ 𝜃 0 𝑍 𝑐 > 𝑍 1−𝛼 𝑍 𝑐 < 𝑍 𝛼

55 Inferencia Estadística.
6. Cálculos. 7. Conclusiones.

56 𝜇: Inferencia Estadística. Contraste de Hipótesis para la media
Una muestra aleatoria de 100 muertes registradas en el estado, el año pasado mostro una vida promedio de 71.8 años. Suponiendo una desviación estándar poblacional de 8.9 años, ¿Esto parece indicar que la vida media actual es mayor a 70 años?, Utilice un nivel de significancia de 5%.

57 𝜇 1 − 𝜇 2 : Inferencia Estadística.
Contraste de Hipótesis para la diferencia de medias: Un fabricante de equipo deportivo desarrollo un nuevo sedal para pesca sintético, que afirma que tiene una resistencia a la rotura de 8Kg con una desviación de 0,5 Kg. Pruebe la hipótesis de que la resistencia media a la rotura difiere a la que dice el fabricante, sabiendo que en una muestra aleatoria de tamaño 50, arrojo una resistencia promedio a la rotura de 7,8 Kg. Use un nivel de significancia de 0.05.

58 Inferencia Estadística.

59 Inferencia Estadística.
Contraste de Hipótesis para la Diferencia de Proporciones:

60 Inferencia Estadística.

61 Inferencia Estadística.
Estimación por Intervalos: Nivel de Confianza 𝑃 ᶿl < ᶿ< ᶿu =(1−α); 0<α<1 ᶿl ᶿu : Puntos Extremos del Intervalo Se tiene una Coonfianza de (1-α) de Seleccionar una variable aleatoria Que produzca un intervalo que contenga ᶿ

62 Inferencia Estadística.

63 Muestra aleatoria: se considera aleatoria siempre y cuando cada observación, medición o individuo de la población tenga la misma probabilidad de ser seleccionado.

64 ¿Censo o Muestreo? - Costo - Control Recolección de Información - Calidad - Rapidez de resultados - Población muy grande o infinita - Población muy homogénea - Proceso de medición destructivo

65 Individuos o Elementos: Características o Propiedades
Cualquier ente, racional o irracional, objeto o concepto. Características o Propiedades Existencia, Modalidad – Categoría (cuantitativa, cualitativa) Relaciones. Proceso de Medición Determinar si un Individuo posee o no cierta característica o si presenta cierta modalidad en tal característica.

66 Variables: son las características o lo que se estudia de cada individuo de la muestra. Ej: sexo, edad, peso, estatura, color de ojos, estado civil, temperatura, cantidad de nacimientos, presión, diámetro, ... Datos: son los valores que toma la variable en cada caso.

67 Cualitativos: son datos que solo toman valores asociados a las cualidades o atributos, clasificándolos en una de varias categorías, es decir, no son valores numéricos. Sexo: f/m. Hábito de fumar: Fumador/No fumador Color de ojos: negro, azul, marrón, … Religión: Católica, Evangélica, … Estado civil: soltero, casado, divorciado,…

68 Cuantitativos: provienen de variables que pueden medirse, cuantificarse o expresarse numéricamente. Ejemplos: Peso Edad Estatura Presión Humedad Intensidad de un sismo Cantidad de hermanos

69 Tipos de variables cuantitativas:
Discretas: es aquella que solo puede tomar un número finito o infinito numerable de valores. Ejemplo: cantidad de hermanos. Continuas: es la variable que puede tomar cualquier valor en una escala continua. Ejemplo: cantidad de líquido contenido en un recipiente.

70 Escalas de medida Concepto: Conjunto de valores que puede tomar una
variable, o conjunto de modalidades que puede presentar una característica.

71 Escalas de medida Nominal. Ordinal. De Intervalos.
De Razón o Proporción. Absoluta. Variables Cualitativas Variables Cuantitativas

72 Escalas de medida Escala Nominal: los datos se pueden agrupar en categorías que no mantienen una relación de orden entre sí, por lo tanto no están definidas las operaciones lógicas (>, <, , ) sino solo las de igualdad o diferencia. Ejemplos: color de ojos, sexo, profesión, estado civil, religión.

73 Escalas de medida Escala Ordinal: existe un cierto orden o jerarquía entre las categorías (>, <, , ). Ejemplos: grados militares, organigrama de una empresa, escalafón de los profesores universitarios, grados de disnea, estadiaje de un tumor, resultados de estudios de opinión. (Excelente, Bueno, Regular, Malo)

74 Escalas de medida Escala de Intervalos: valores numéricos de las variables y además de las relaciones de orden (>, <, , ), se pueden establecer distancias, es decir, tienen sentido las operaciones de suma y resta Propiedades: Existe una unidad de medida que se mantiene constante para todos los valores que toma la variable. Existe un valor patrón u origen relativo que no significa la ausencia de valor en la variable.

75 Escalas de medida Ejemplo: temperatura, nivel de ruido, movimientos sísmicos.

76 Escalas de medida Escala de Razón o Proporción: es la más completa y general de todas las escalas. Se caracteriza porque los valores de la variable son números, entre los cuales, además de las relaciones de orden (>, <, , ) y distancia (+,-), se pueden establecer múltiplos y proporciones. Ejemplos: peso, altura, volumen, ingreso, precio Propiedades: - Poseen 0 absoluto que significa ausencia de la propiedad. - Tienen unidad de medida

77 Escalas de medida Escala Absoluta: se caracteriza porque los valores que toma la variable son el resultado de un conteo y por lo tanto, está constituida por los enteros positivos y el cero. Ejemplos: número de hermanos, cantidad de autos vendidos, cantidad de accidentes en una intersección, cantidad de hijos,…

78 Escalas de medida Nominal Ordinal Intervalos Razón Absoluta Categoriza
X Jerarquiza Diferencias tienen sentido Múltiplos tienen sentido Cero absoluto Operaciones Aritméticas Se pueden transformar en otras del mismo tipo Escalas Propiedades (Algunas)

79 Datos Univariantes y Multivariantes
Univariantes o unidimensionales: sólo recogen información sobre una característica (Ej: edad de los alumnos de una clase). Bivariantes o bidimensionales: recogen información sobre dos características de la población. (Ej: edad y estatura de los alumnos de una clase).

80 Datos Univariantes y Multivariantes
Multivariantes o pluridimensionales: recogen información sobre tres ó más características. (Ej: edad, estatura y peso de los alumnos de una clase).

81 Estadística - Abusos Conclusiones erróneas debido a que los datos son numéricamente insuficientes. Representaciones gráficas engañosas (escalas). Datos muestrales no representativos: Muestra que no incluye a elementos de toda la población. Ciertas categorías de personas no responden correctamente. Respuestas voluntarias (sesgadas).

82 Organización de los datos
Datos cualitativos Se realiza de acuerdo a las modalidades que presente la variable en estudio. Mediante un conteo se determina el número de datos (Frecuencia) correspondiente a las diferentes categorías de la variable. Se usa para cualquier cantidad de datos.

83 Organización de datos cualitativos
Ejemplo: En un estudio sobre las personas que ejercen cargos directivos en una empresa, se realizaron 32 entrevistas y se obtuvo la siguiente información. Variable: Sexo. F, F, M, M, F, M, F, F, M, F, M, M, M, M, F, F, M, F, F, F, M, F, F, M, M, F, F, F, F, F, M, M. .

84 Organización de datos cualitativos
Clasificación del Personal Directivo de acuerdo al sexo. Sexo Personas Masculino Femenino Total

85 Organización de datos cualitativos
Tablas de Doble Entrada o de Contingencia. Se utilizan para agrupar los datos de acuerdo a dos características simultáneamente. Característica B b b bk Totales xxx Caracteristica A a1 a ak

86 Organización de datos cualitativos
Datos correspondientes a Sexo y Profesión de 32 Ejecutivos de Empresa Profesión Sexo M F Totales Abogados 3 4 7 Economistas 2 5 Educadores 1 Geógrafos Ingenieros Médicos - Sociólogos 14 18 32

87 Organización de los datos
Datos cuantitativos Para organizar y agrupar datos de tipo cuantitativo, discretos o continuos, se utiliza un procedimiento similar al utilizado con los datos cualitativos, pero más laborioso.

88 Organización de datos cuantitativos
Una vez que se ha realizado la recolección de los datos, se obtienen datos en bruto, los cuales rara vez son significativos sin una organización y tabulación.

89 Organización de datos cuantitativos
Formas de organizar los datos: Distribución de Frecuencias: es un arreglo de los datos que permite expresar la frecuencia de ocurrencias de las observaciones en cada una de las clases, mostrando el patrón de la distribución de manera más significativa. Clase Pto. Medio fi Fi fri FRi

90 Organización de datos cuantitativos
La Distribución de Frecuencias: Se recomienda su uso cuando se tienen grandes cantidades de datos (n). Su construcción requiere, en primer lugar, la selección de los límites de los intervalos de clase. Para definir la cantidad de intervalos de clase (k), se puede usar: La regla de Sturges: k = log(n) k = n

91 Organización de datos cuantitativos
La Distribución de Frecuencias: La cantidad de clases no puede ser tan pequeño (menos de 5) o tan grande (más de 20), que la verdadera naturaleza de la distribución sea imposible de visualizar. La amplitud de todas las clases deberá ser la misma. Se recomienda que sea impar y que los puntos medios tengan la misma cantidad de cifras significativas que los datos en bruto. Los límites de las clases deben tener una cifras significativas más que los datos en bruto.

92 Organización de datos cuantitativos
Determinar: Punto medio = (Li+Ls)/2. Frecuencia absoluta de la clase (fi). Frecuencia acumulada de la clase (Fi). Frecuencia relativa de la clase (fri): fri = fi/n Frecuencia relativa acumulada de la clase (FRi).

93 Organización de datos cuantitativos
Ejemplos de Distribuciones de Frecuencias

94 Organización de datos cuantitativos
Formas de organizar los datos: Arreglo: es la forma más sencilla de organizar los datos en bruto. Consiste en colocar las observaciones en orden según su magnitud: ascendente o descendente. Poco práctica cuando se tiene una gran cantidad de datos.

95 Distribución de Frecuencias
Ejemplo 1: Se desea determinar cómo varían las estaturas de las mujeres, al tomar una muestra de 50 trabajadoras de una fábrica de pantalones. Los datos obtenidos fueron los siguientes: 1.65 1.63 1.69 1.67 1.53 1.58 1.60 1.61 1.64 1.71 1.68 1.66 1.56 1.59 1.62 1.55 1.57 1.72 1.70

96 Distribución de Frecuencias
Organice los datos en una distribución de Frecuencias en intervalos de clases, con amplitud constante. Para el calculo de la amplitud, aproxime a tres decimales, y para el calculo de las clases aproxime a dos decimales.

97 Distribución de Frecuencias
1.- Se determina el número de intervalos (Sturges) K = log(50) = 6.6 => tomamos K = 7 2.- Se determina la amplitud del intervalo A – 3.- Se determinan los intervalos Primer intervalo: 1,53 + 0,027 = 1,557 [1,53 – 1,5571) [1,5571 – 1,5843) = = 7

98 Distribución de Frecuencias
No. Clase Intervalo fi Pto.Medio Fi fri FRi 1 1.53 – 1.55 2 1.54 2/50 = 0,04 = 4% 1.56 – 1.58 5 1.57 7 5/50 = 0,1 = 10% 7/50 = 0,14 = 14% 3 1.59 – 1.61 9 1.60 16 9/50 = 0,18 = 18% 16/50 = 0,32 = 32% 4 1.62 – 1.64 15 1.63 31 15/50 = 0,3 = 30% 31/50 = 0,62 = 62% 1.65 – 1.67 12 1.66 43 12/50=0,24 = 24% 43/50 = 0,86 = 86% 6 1.68 – 1.70 1.69 48 48/50 = 0,96 = 96% 1.71 – 1.73 1.72 50 50/50 = 1 = 100% Totales 100%

99 Distribución de Frecuencias
Clasificación de un grupo de trabajadoras de la empresa El Pantalón de acuerdo a sus estaturas (en Mts.) Estaturas Nº. Empleadas Porcentaje 1.53 – 1.55 2 4 1.56 – 1.58 5 10 1.59 – 1.61 9 18 1.62 – 1.64 15 30 1.65 – 1.67 12 24 1.68 – 1.70 1.71 – 1.73 Totales 50 100% Fuente: Registros Empresa El Pantalón

100 Distribución de Frecuencias
Ejemplo 2: A 40 pacientes de un hospital se les investigó la variable número de hijos, obteniéndose la siguiente información: 4 5 6 2 3 7

101 Distribución de Frecuencias
Clases fi fri Fi FRi 4 0.100 = 10% 0,100 = 10% 1 0,000 = 0% 2 8 0,200 =20% 3 0,075 = 7,5% 11 0,275 =27,5% 6 0,150 = 15% 17 0,425 = 42,5% 5 23 0,575 = 57,5% 10 0,250 = 25% 33 0,825 = 82,5% 7 0,125 = 12,5% 38 0,950 = 95% 0,050 = 5% 40 1,000 = 100% Totales

102 Distribución de Frecuencias
Ejercicio: Los datos que se muestran a continuación representan las calificaciones de 60 estudiantes que presentaron la PINA en el año a) Construya una distribución de frecuencias. b) ¿Qué puede concluir de estos datos?

103 Distribución de Frecuencias
Ejercicio:

104 Representación gráfica de los datos
Los gráficos permiten visualizar en forma global y rápida el comportamiento de los datos. Para datos cuantitativos agrupados en clases, comúnmente se utilizan tres tipos de gráficos: Histogramas. Polígono de frecuencias. Ojiva o Polígono de frecuencias acumuladas.

105 Representación gráfica de los datos
Para datos cuantitativos - Diagrama de puntos - Diagramas de dispersión - Curvas - Pictogramas Para datos cualitativos Curvas Barras Circulares o de Sectores - Histogramas. - Polígono de frecuencias. Ojiva o Polígono de frecuencias acumuladas.

106 Representación gráfica de los datos
Histograma:

107 Representación gráfica de los datos
Histograma y Polígono de Frecuencias

108 Representación gráfica de los datos
Ojiva

109 Representación gráfica de los datos
Barras

110 Representación gráfica de los datos
Curvas

111 Representación gráfica de los datos
Pictogramas

112 Representación gráfica de los datos
Sectores, torta o circular

113 Ejemplos de construcción de gráficos

114 Medidas de Tendencia Central
Se les conoce también como “Medidas de Posición”. Corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. Forma cómo los datos se pueden condensar en un solo valor central, alrededor del cual se distribuyen todos los datos de la muestra.

115 Medidas de Tendencia Central
Las medidas de tendencia central más importantes son: Media: Aritmética y Aritmética ponderada. Mediana. Moda.

116 Media Aritmética Es la suma de todas las observaciones dividida entre el número total de observaciones. Expresada de forma más intuitiva, se puede decir que la media aritmética es la cantidad total de la variable, distribuida a partes iguales entre cada observación. (Wikipedia)

117 Media Aritmética Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable. (Wikipedia)

118 Cálculo de la Media Aritmética
Para datos no agrupados: Para datos agrupados: Donde: mi: punto medio de la clase i fi: frecuencia absoluta de la clase i

119 Mediana Es el valor que ocupa la posición central de un conjunto de observaciones, una vez que han sido ordenados en forma ascendente o descendente. Divide al conjunto de datos en dos partes iguales.

120 Cálculo de la Mediana Para datos no agrupados: Si n es impar:
posición donde se ubica la mediana es igual a (n+1)/2. Si n es par: (n+1)/2 no es entero, por lo tanto la mediana será igual al promedio de las dos posiciones centrales.

121 Cálculo de la Mediana Para datos agrupados:
Clase mediana (o medianal) es la que contiene a la observación que ocupa la posición n/2. Donde: Lm: límite inferior de la clase mediana. F(xm-1): frecuencia acumulada de la clase anterior a la clase mediana. f(xm): frecuencia absoluta de la clase mediana. Cm: amplitud de la clase mediana.

122 Moda Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones. Un conjunto de datos puede ser unimodal, bimodal o multimodal. Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.

123 Cálculo de la Moda Para datos no agrupados: Para datos agrupados:
es simplemente la observación que más se repite. Para datos agrupados: Donde: Lim: límite inferior de la clase modal. 1: diferencia entre fi de la clase modal y la anterior. 2: diferencia entre fi de la clase modal y la posterior. Cm: amplitud de la clase modal (clase de mayor frecuencia).

124 Relación Media - Mediana - Moda.
Cuando los datos son sesgados es mejor emplear la Md

125 Propiedades de la Media
La suma de las diferencias entre la media muestral y el valor de cada observación es cero. La media de una constante es la constante. Si todas las observaciones xi se multiplican por una constante a, la X también se debe multiplicar por ese mismo valor constante.

126 Propiedades de la Media
Si se somete a una variable estadística X a un cambio de origen y escala, Y = a + bX, la media aritmética de dicha variable X varía en la misma proporción. La media de la suma de dos variables es igual a la suma de sus medias.

127 Media. Ventajas y desventajas
Emplea en su cálculo toda la información disponible. Se expresa en las mismas unidades que la variable en estudio. Es el centro de gravedad de toda la distribución, representando a todos los valores observados. Es un valor único.

128 Media. Ventajas y desventajas
Se trata de un concepto familiar para la mayoría de las personas. Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos.

129 Media. Ventajas y desventajas
Se ve adversamente afectada por valores extremos, perdiendo representatividad. Si el conjunto de datos es muy grande puede ser tedioso su cálculo manual. No se puede calcular para datos cualitativos. No se puede calcular para datos que tengan clases de extremo abierto, tanto superior como inferior.

130 Mediana. Ventajas y desventajas
Fácil de calcular si el número de observaciones no es muy grande. No se ve influenciada por valores extremos, ya que solo influyen los valores centrales. Fácil de entender.

131 Mediana. Ventajas y desventajas
Se puede calcular para cualquier tipos de datos cuantitativos, incluso los datos con clase de extremo abierto. Es la medida de tendencia central más representativa en el caso de variables que sólo admiten la escala ordinal.

132 Mediana. Ventajas y desventajas
No utiliza en su “cálculo” toda la información disponible. No pondera cada valor por el número de veces que se ha repetido. Hay que ordenar los datos antes de determinarla.

133 Moda. Ventajas y desventajas
No requiere cálculos. Puede usarse para datos tanto cuantitativos como cualitativos. Fácil de interpretar. No se ve influenciada por valores extremos. Se puede calcular en clases de extremo abierto.

134 Moda. Ventajas y desventajas
Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de hecho existe. Solo tiene significado en el caso de una gran cantidad de datos. No utiliza toda la información disponible. No siempre existe, si los datos no se repiten.

135 Moda. Ventajas y desventajas
En ocasiones, el azar hace que una sola observación no representativa sea el valor más frecuente del conjunto de datos. Difícil de interpretar si los datos tiene 3 o más modas.

136 Medidas de dispersión También conocidas como Medidas de variación o variabilidad. Son valores numéricos que indican o describen la forma en que las observaciones están dispersas o diseminadas, con respecto al valor central.

137 Medidas de dispersión Son importantes debido a que dos muestras de observaciones con el mismo valor central pueden tener una variabilidad muy distinta.

138 Medidas de dispersión Rango. Varianza. Desviación Típica.
Coeficiente de Variación.

139 Medidas de dispersión: Rango
Rango (amplitud o recorrido): Está determinado por los dos valores extremos de los datos muestrales, es simplemente la diferencia entre la mayor y la menor observación. Es una medida de dispersión absoluta, ya que depende solamente de los datos y permite conocer la máxima dispersión.

140 Medidas de dispersión: Rango
Casi no se emplea debido a que depende únicamente de dos valores. No proporciona una medida de variabilidad de las observaciones con respecto al centro de la distribución. Notación: R

141 Medidas de dispersión: Varianza
Es un valor numérico que mide el grado de dispersión relativa, porque depende de la posición de los datos x1,x2,…,xn con respecto a la media. Es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media. Notación: s2, 2, var(X)

142 Medidas de dispersión: Varianza
Si la varianza de un conjunto de observaciones es grande, se dice que los datos tienen una mayor variabilidad que un conjunto de datos que tenga un varianza menor.

143 Dispersión: Desviación Típica
Es la raíz cuadrada de la varianza. Notación: s, .

144 Dispersión: Coeficiente de Variación
Es una medida de dispersión relativa que permite comparar el nivel de dispersión de dos muestras de variables estadísticas diferentes. No tiene dimensiones. Notación: CV

145 Ventajas y Desventajas del Rango
Útil cuando se quiere conocer la extensión de las variaciones extremas (valor máximo de la dispersión). Fácil de calcular.

146 Ventajas y Desventajas del Rango
No es una Medida de Dispersión con respecto al centro de la distribución. Solo emplea dos valores en su cálculo. No se puede calcular en distribuciones de límite de clase abierto.

147 Propiedades de la Varianza
Siempre es mayor o igual a cero y menor que infinito. La varianza de una constante es cero. Si a una variable X la sometemos a Y=a+bX, la varianza de Y será Var(Y) = b2Var(X)

148 Ventajas y Desventajas - Varianza
Es útil cuando se compara la variabilidad de dos o más conjuntos de datos. Utiliza toda la información disponible. Desventajas: No proporciona ayuda inmediata cuando se estudia la dispersión de un solo conjunto de datos. Difícil de interpretar por tener sus unidades elevadas al cuadrado.

149 Ventajas/Desventajas Desviación Típica
Esta expresada en las mismas unidades que la variable en estudio. Utiliza todas las observaciones en su cálculo. Fácil de interpretar. Desventajas: No tiene.

150 Ventajas/Desventajas Coeficiente de Variación
Es la única Medida de Dispersión que permite comparar el nivel de dispersión de dos muestras de variables diferentes. Emplea toda la información disponible en su cálculo. Fácil de calcular.

151 Ventajas/Desventajas Coeficiente de Variación
No es una Medida de Dispersión con respecto al centro de la distribución de los datos.

152 Medidas de Forma Son medidas numéricas que permiten determinar la forma que tiene la curva de los datos. Por lo tanto, sirven para corroborar lo que muestran los gráficos. Medidas de forma Asimetría Kurtosis o apuntamiento Coeficiente de Pearson Coeficiente de Fisher

153 Medidas de Forma: Asimetría
Permiten estudiar la forma de la curva, dependiendo de cómo se agrupan los datos.

154 Medidas de Forma: Asimetría
Coeficiente de Asimetría de Pearson: Fácil de calcular e interpretar. Cálculo: Interpretación: ASP = 0, X=Md Simétrica > 0, X>Md Asimétrica Positiva < 0, X<Md Asimétrica Negativa

155 Medidas de Forma: Asimetría
Coeficiente de Asimetría de Fisher: No es de fácil cálculo, pero si su interpretación. Datos NO agrupados Datos Agrupados

156 Medidas de Forma: Asimetría
Interpretación: ASF = 0, Simétrica > 0, Asimétrica Positiva < 0, Asimétrica Negativa

157 Medidas de Forma: Kurtosis
Miden si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra (zona central de la distribución). Se definen tres tipos de distribución según su grado de apuntamiento o Kurtosis.

158 Medidas de Forma: Kurtosis
Mesocúrtica: grado de concentración medio alrededor de los valores centrales de la variable. Leptocúrtica: grado de concentración elevado. Platicúrtica: grado de concentración reducido.

159 Medidas de Forma: Kurtosis
Datos No Agrupados Datos Agrupados

160 Medidas de Forma: Kurtosis
CK Interpretación: CK = 0 Mesocúrtica > 0 Leptocúrtica < 0 Platicúrtica

161 Referencias: Wikipedia(http://es.wikipedia.org/wiki/Wikipedia:Portada)
Walpole y Myers. Probabilidad y Estadística. Mc Graw-Hill. Triola, Mario F. Estadística. Pearson. Armas, G, Jose, M.(2002). Estadística Sencilla: Descriptiva. Universidad de Los Andes, Facultad de Economía, Departamento de Estadística. Chao, Lincoln L Introducción a la Estadística. México: Continental.


Descargar ppt "Inferencia Estadística"

Presentaciones similares


Anuncios Google