La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Repaso de Inferencia Simulación

Presentaciones similares


Presentación del tema: "Repaso de Inferencia Simulación"— Transcripción de la presentación:

1 Repaso de Inferencia Simulación
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

2 Conceptos de Inferencia Estadística
Población Totalidad elementos que se desean estudiar. Parámetro Valor o medida asociado a la Población. Muestra Una parte de la población que se asume contempla todas sus características. Estadístico Valor o medida asociado a una Muestra. Puede ser: Media, desviación, mediana, asimetría, curtosis, etc. Son variables aleatorias. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

3 Estadística Descriptiva
Promedio Valor medio de un conjunto de datos Varianza Promedio de las distancias cuadradas entre cada valor y su media. Permite comprender la variabilidad de los datos Desviación Estándar Raíz cuadrada de la varianza. Está en las mismas unidades que el conjunto de datos. Mediana Es el valor que está por encima del 50% de los datos. No se deja afectar por datos extremos. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

4 Representaciones Gráficas
Permiten resumir la información de grandes cantidades de datos. Son fáciles de explicar y entender. Apoyan el proceso de control de información. Las nuevas tecnologías de información posibilitan la interpretación en tiempo real de información. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

5 Histograma Representación de las frecuencias acumuladas de una variable. Permite observar el comportamiento de la variable de interés. Brinda información sobre sus estadísticos centrales y de forma. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

6 Diagrama de Pareto Es un histograma ordenado por las frecuencias.
Permite la selección de los elementos más relevantes. Barras=Frecuencia relativa, Ojiva= Frecuencia Acumulada. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

7 Diagrama de cajas y bigotes
Concentración de datos. Cantidad de datos extremos. Valores centrales. Bigote Inf: Q1-1.5*RIC . Bigote Sup: Q3+1.5*RIC. Extremos: Med ± 3*RIC Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

8 Diagramas de tendencia
Indican el comportamiento de una variable en el tiempo Permite identificar tendencias, estaciones, ciclos. Comúnmente aplicado a la predicción. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

9 Características de los estimadores
Variabilidad Cada uno de los estimadores tienen asociada una variabilidad que se debe a las variables aleatorias que lo componen Consistencia Los valores del estimador, a pesar de que sea insesgado siempre van a cambiar cada vez que se analice una muestra diferente. Intervalos de Estimadores Para muchas situaciones es preferible estimar un intervalo dentro del cuál se esperaría encontrar el valor del parámetro. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

10 Intervalo de confianza
Definición Un intervalo numérico que expresa los valores en los que el parámetro poblacional estará presente un determinado número de veces. Formalmente estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. Confianza Proporción del número de veces que el parámetro se encontrará dentro del intervalo. Estimador Para poder crear el parámetro relacionado a un intervalo de confianza se requiere un estimador adecuado. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

11 Fórmulas I.C. general para un parámetro asociado a le media poblacional. I.C. de una población normal con varianza conocida. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

12 Descripción del Intervalo
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

13 Consideraciones El intervalo de confianza debe implementarse cuando se desea hacer un análisis sobre el parámetro poblacional. Un intervalo de confianza no responde exactamente preguntas: ¿En dónde va a caer la siguiente observación? ¿Dónde está la mayoría de la distribución? Específicamente un intervalo de confianza presenta: Sólo indica que si el experimento o los datos se observan muchas veces. (Obteniendo un I.C. en cada caso). Aproximadamente el 95% de tales intervalos contendrá el parámetro real. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

14 Diferencias entre los valores medios de un intervalo de confianza
Un intervalo de confianza es un procedimiento de estimación que tiene una probabilidad del 95% de producir un intervalo donde se encuentre el parámetro poblacional. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

15 Estimación del tamaño de muestra
El término que acompaña al estimador de cada intervalo representa el error límite al cual está asociado el nivel de confianza. Es posible definir un tamaño de muestra que garantice con (con una probabilidad igual al nivel de confianza), no exceder un error determinado. Es necesario realizar la aproximación al entero mayor siguiente para asegurar que se cumpla siempre con el nivel de confianza. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

16 Ejemplo En determinado producto se obtiene a través de una muestra la cantidad promedio de concentración de calcio. Por el constante control de calidad se sabe que la desviación estándar de la población es 0.3g Se toma una muestra de 36 productos, y se obtiene un promedio muestral del de 2.6g. Calcule un intervalo de confianza del 95% y 99% para la media de la población ¿Qué conclusiones se obtienen entre la relación del nivel de confianza y la amplitud del intervalo? ¿Qué valores tendría un intervalo de confianza de la media poblacional al 100%? ¿Qué interpreta usted sobre los resultados del intervalo? ¿Qué les dice este resultado sobre la probabilidad de obtener un producto mayor a 2.8? Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

17 Ejercicio ¿Qué tan grande se requiere una muestra para el ejemplo anterior, si queremos tener un 95% de confianza de que nuestra estimación de la media poblacional difiera por menos de 0.05? ¿Y para que difiera menos de 0.01? Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

18 Pruebas de Hipótesis Son un proceso de decisión que se basa en los datos, el cual ofrece una conclusión acerca de algún sistema específico. El objetivo de las pruebas de hipótesis consiste en intentar responder la pregunta ¿Cuál se cree que es el valor del parámetro de una población? Debido a que para conocer el valor del parámetro es necesario analizar toda la población, las pruebas de hipótesis utilizan valores muestrales y estimadores. Parten de una hipótesis estadística, la cual es una aseveración o conjetura respecto a una o más poblaciones. La falsedad o verdad de una hipótesis estadística nunca se sabe con absoluta certeza, a menos que se examine toda la población. Inferencia Estadística- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

19 Definición de Hipótesis
Hipótesis Nula Se refiere a la hipótesis que se desea probar y se denota como Ho. Este tipo de hipótesis se opone a Ha, y a menudo es el complemento lógico para ella. Frecuentemente, representa el status quo del experimento. Hipótesis Alternativa El rechazo de Ho conduce al no rechazo de una hipótesis alternativa, determinada como Ha, o H1. Este tipo de hipótesis representa por lo general la pregunta que debe responderse, la teoría que desea probarse. La conclusión obtenida a través de la aplicación de la prueba de hipótesis puede llegar a la siguientes dos conclusiones. En cualquier caso, se debe evidenciar que las conclusiones no implican una aceptación formal y literal de Ho. Rechazar Ho : A favor de Ha, debido a evidencia de los datos de la muestra. No rechazar Ho : Debido a insuficiente evidencia en los datos. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

20 Errores tipo 1 y 2 Suponga que un juez está decidiendo sobre algún caso que podría ocasionar que la persona acusada vaya a la cárcel. En este caso se plantea las siguientes hipótesis: Ho = El acusado es Culpable Ha = El acusado es Inocente Error tipo 2 Correcto Culpable | Culpable Culpable | Inocente Inocente | Culpable Inocente | Inocente Correcto Error tipo 1 Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

21 Conceptos P.H. Estadístico de Prueba Nivel de confianza de la prueba
Valor obtenido a través de la muestra que se va a comprar con los valores asociados al error tipo 1 y a la curva de probabilidad asociada. Nivel de confianza de la prueba Valor asociado al error tipo 1 P-value Mínimo valor de error tipo 1 para rechazar la hipótesis nula. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

22 Descripción Gráfica Prueba de Cola Derecha Zc Zp Pvalue Rechazo
No Rechazo Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

23 Fórmulas Cola Derecha Cola Izquierda Dos colas
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

24 Ejemplo Una empresa de material eléctrico afirma que fabrica bombillas de luz que tienen una duración promedio de 800 horas. Según los análisis de calidad de la empresa, se conoce que el tiempo de vida de cada bombilla se distribuye normal, y que además tiene desviación estándar de 40 horas. Para probar la afirmación de la empresa, se procede a obtener una muestra aleatoria de 50 unidades, de la cual se obtiene un promedio muestral de 790 horas. ¿Qué se puede decir acerca de la afirmación inicial de la empresa? Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

25 Relación entre I.C. y P.H. Los intervalos de confianza pueden ser utilizados para probar cierto tipo de hipótesis. Los I.C. bilaterales son equivalentes a las pruebas de hipótesis de dos colas. Para estos casos, si el valor de la hipótesis se encuentra por dentro de los límites del intervalo, entonces con seguridad dicha hipótesis nula no será rechazada. Para estas herramientas estadísticas, un incremento en el tamaño de la muestra disminuye el error asociado al intervalo de confianza y los errores tipo 1 y 2 de la prueba de hipótesis. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

26 Prueba de Hipótesis de dos poblaciones
Permiten realizar pruebas acerca de las diferencias entre los promedios o varianzas de dos poblaciones. Se deben tener en cuenta los diferentes casos existentes Varianzas conocidas Varianzas desconocidas pero diferentes Varianzas desconocidas pero iguales Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

27 Distribución de muestreo de la diferencia de medias de distribuciones independientes.
Varianzas Conocidas Varianzas Desconocidas pero iguales Varianzas desconocidas y diferentes Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

28 Ejercicio Se desea saber si el promedio de la población 1 es mayor al de la población 2, para ello se toman una muestra aleatoria de tamaño 30 en cada una de las poblaciones obteniendo 38 y 35 para los promedios muestrales. Si se puede asumir que ambas poblaciones tienen una varianza de 9, probar la hipótesis mencionada con un valor de confianza del 95%. Calcular el valor del error tipo 2 para un valor sensible de la diferencia entre la población 1 y 2 de 5. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

29 Pruebas de Aleatoriedad (Rachas)
Permiten identificar si una secuencia de datos se puede suponer aleatoria. Una racha consiste en una secuencia de elementos de la misma característica. SSSCSC tiene 4 rachas CCCCSSS tiene 2 rachas CSCSCSCS tiene 6 rachas Cuando se está hablando de variables escalares se puede elegir el criterio: Mayor o igual que la mediana o menor que la mediana. Existen otras pruebas de aleatoriedad como las espectrales de Hadamard. También es posible verificarlo a través de un diagrama de nube de puntos. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

30 Pruebas de Aleatoriedad (Rachas)
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

31 Distribuciones de Frecuencias
Muchos de los supuestos de las pruebas paramétricas dependen de las distribuciones de origen. En muchas ocasiones es deseable conocer la distribución de probabilidad de origen de una variable aleatoria. Visto de una manera general, es deseable conocer a qué distribución de probabilidad conocida se asemeja el histograma de frecuencias de una variable. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

32 Prueba Chi cuadrado Usualmente es aplicada para distribuciones discretas, aunque se puede implementar en distribuciones continuas si se agrupa los datos. Para calcular el estadístico de prueba se tiene en cuenta las diferencias entre las frecuencias esperadas y las frecuencias observadas. A pesar de que la prueba de hipótesis se define de manera bilateral, los cálculos se hacen de cola derecha, ya que se define un límite máximo de error de los datos. Las distribuciones teóricas no necesariamente deben ser distribuciones de probabilidad conocidas, puede ser una distribución de frecuencias particular. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

33 Fórmulas Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

34 Pasos Variables Discretas
Definir la distribución teórica a testear. Por cada parámetro que se estime de la distribución (a través de M.V.) se debe eliminar un grado de libertad. Definir el valor del error tipo 1 Ordenar los datos observados en clases. Crear una tabla con los valores observados y esperados para cada valor de la variable discreta. Calcular el estadístico de prueba. Calcular el valor crítico de la prueba según una prueba de cola derecha. Concluir. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

35 Ejemplo Discreta Si cree que el número de clientes que llegan a un banco se distribuye de manera Poisson con tasa de 3 clientes por minuto. Tras tomar una muestra aleatoria de 120 datos se obtuvieron los siguientes resultados. Se puede suponer que los datos siguen una distribución Poisson?. Utilizar alfa del 5%. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

36 Pasos Variables Continuas
Definir la distribución teórica a testear. Por cada parámetro que se estime de la distribución (a través de M.V.) se debe eliminar un grado de libertad. Definir el valor del error tipo 1 Ordenar los datos observados en intervalos (criterio raíz). Crear una tabla con los valores observados contando cuántos caen dentro del intervalo Calcular los valores esperados según la probabilidad de que se obtenga un valor en ese intervalo multiplicado por n Calcular el estadístico de prueba. Calcular el valor crítico de la prueba según una prueba de cola derecha. Concluir. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

37 Ejemplo (c) Se desea saber si el peso del siguiente producto se distribuye de manera normal con media y varianza de Utilizar alfa del 5%. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

38 Test de Kolmogorov - Smirnov
Una prueba de bondad de ajuste que se basa en la máxima diferencia entre la distribución teórica y las frecuencias acumuladas. Es ideal para muestras pequeñas y funciones de probabilidad continuas. No se deben agrupar los datos. El resultado del estadístico de prueba se debe comparar con los valores críticos de las tablas de K-S, que dependen del número de datos y el valor del error tipo 1. Si varios datos se repiten, sólo se debe obtener la diferencia del último de ellos, pues es éste el que indica la frecuencia acumulada. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

39 Pasos Seleccionar la distribución de prueba.
Ordenar los datos de menor a mayor. Calcular la frecuencia acumulada para cada dato: (1/n), (2/n)…(n/n) Obtener la probabilidad teórica de obtener un valor menor al de la posición. Obtener el valor absoluto de la diferencia Seleccionar el máximo valor Compararlo con los estadísticos críticos teóricos. Inferencia Estadística- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

40 Ejemplo Se desea conocer si los tiempos de llegada de los clientes a cierto restaurante se distribuyen exponencial con promedio de 5 minutos. Utilizar alfa del 5%. Inferencia Estadística- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

41 Prueba de Anderson Darling
Prueba de bondad de ajuste basada en el test de kolmogorv smirnov. Ha ganado popularidad las últimas décadas. Dada una función de probabilidad de hipótesis, se asume que los datos pueden ser transformados a una distribución uniforme, posteriormente se prueba la uniformidad de los datos transformados. Contempla los valores de la función de distribución y las frecuencias de datos ordenados. Es una de las herramientas más poderosas para probar la normalidad de un conjunto de datos. Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá


Descargar ppt "Repaso de Inferencia Simulación"

Presentaciones similares


Anuncios Google