La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

1 Programa de certificación de Black Belts CFE VI. Seis Sigma - Análisis P. Reyes / Abril de 2009.

Presentaciones similares


Presentación del tema: "1 Programa de certificación de Black Belts CFE VI. Seis Sigma - Análisis P. Reyes / Abril de 2009."— Transcripción de la presentación:

1 1 Programa de certificación de Black Belts CFE VI. Seis Sigma - Análisis P. Reyes / Abril de 2009

2 2 Fase de Análisis Propósitos: Establecer hipótesis sobre las posibles Causas Raíz Refinar, rechazar, o confirmar la Causa Raíz Seleccionar las Causas Raíz más importantes: Las pocas Xs vitales Salidas: Causas raíz validadas Factores de variabilidad identificados

3 3 Llenar columnas del FMEA Hasta sol. Propuesta y comprobar causas con Pruebas de Hipótesis

4 4 VI. Análisis A. Medición y modelaje de relación entre variables B: Pruebas de hipótesis C. Análisis del modo y efecto de falla (AMEF) D. Métodos adicionales de análisis

5 5 A. Medición y modelaje de relación entre variables

6 6 1. Coeficiente de correlación 2. Regresión 3. Herramientas Multivariadas 4. Estudios Multivari 5. Análisis de datos por atributos

7 7 VI.A.1 Coeficiente de correlación

8 8 Definiciones Correlación Establece si existe una relación entre las variables y responde a la pregunta, ¿Qué tan evidente es esta relación?" Regresión Describe con más detalle la relación entre las variables. Construye modelos de predicción a partir de información experimental u otra fuente disponible. Regresión lineal simple Regresión lineal múltiple Regresión no lineal cuadrática o cúbica

9 9 Correlación Propósito:Estudiar la posible relación entre dos variables. Accidentes laborales Numero de órdenes urgentes Correlación positiva, posible El 1er. paso es realizar una gráfica de la información.

10 10 Coeficiente de correlación (r ) Mide la fuerza de la relación lineal entre las variables X y Y en una muestra. El coeficiente de correlación muestral de Pearson rx,y con valores entre -1 y +1 es:

11 11 Correlación de la información (R ) de las X y las Y Correlación Positiva Evidente X Y Correlación Negativa Evidente X Y Correlación Positiva X Y Correlación Negativa X Y Sin Correlación X Y R=1 R=>-1 R=-1 R=0 R=>1

12 12 Coeficiente de correlación El coeficiente de correlación r asume el mismo signo de la pendiente de la recta 1 siendo cero cuando 1 =0 Un valor positivo de r implica que la pendiente de la línea es ascendente hacia la derecha Un valor negativo de r implica que la pendiente de la línea es descendente hacia la derecha Si r=0 no hay correlación lineal, aunque puede haber correlación curvilínea

13 13 Coeficiente de correlación 0.8 < r < < r < < r < < r < < r < -0.8 Relación Fuerte, positiva Débil, positiva No existe Débil, negativa Fuerte, negativa Reglas empíricas

14 14 Tabla de Correlación mínima Correlaciones (Pearson) n 95% 99% de confianza de confianza n 95% 99% de confianza de confianza Para un 95% de confianza, con una muestra de 10, el coeficiente (r) debe ser al menos.63

15 15 La correlación puede usarse para información de atributos, variables normales y variables no normales. La correlación puede usarse con un predictor o más para una respuesta dada. La correlación es una prueba fácil y rápida para eliminar factores que no influyen en la predicción, para una respuesta dada. Correlación

16 16 Para determinar que tanto se acercan los datos predichos por el modelo a los datos observados aplicando el coeficiente de correlación de Pearson (ver tabla anterior para identificar la significancia) Coeficiente de Correlación r = S(y e y o ) S(y e y e ) S(y o y o ) S(y e y e ) = y ei 2 - y ei ) 2 n S(y o y o ) = y oi 2 - y oi ) 2 n S(y e y o ) = y ei y oi - y ei ) y oi ) n y e = Respuesta esperada y o = Respuesta observada r = Coeficiente de correlación

17 17 Otra forma para no consultar la tabla de coeficiente de correlación de Pearson es la r ajustada Coeficiente de Correlación ajustado R 2 (Adj) = 1 – (1 – r 2 ) (n-1) (n-p) Donde : R 2 (Adj) = Coeficiente de correlación ajustado r = Coeficiente de correlación de Pearson n = Número de datos p = Núm. términos en el modelo (Incluyendo la constante) Criterios en función a la R 2 (Adj) > 90% = Correlación Fuerte 80% - 90% = Buena correlación 60% - 80% = Correlación media 40% - 60% = Correlación débil < 40% = No existe correlación

18 18 Coeficiente de Determinación (R2) El coeficiente de determinación es la proporción de la variación total explicada por la regresión, R2 se encuentra en el rango de valores de 0 a 1.

19 19 Correlación vs causación Tener cuidado de no tener variables colineales, por ejemplo peso de un coche y peso de las personas que transporta, o que no la relación no tenga sentido, como si lavo mi coche, llueve.

20 20 VI.A.2 Regresión

21 21 El análisis de regresión es un método estandarizado para localizar la correlación entre dos grupos de datos, y, quizá más importante, crear un modelo de predicción. Puede ser usado para analizar las relaciones entre: Una sola X predictora y una sola Y Múltiples predictores X y una sola Y Varios predictores X entre sí El análisis de regresión es un método estandarizado para localizar la correlación entre dos grupos de datos, y, quizá más importante, crear un modelo de predicción. Puede ser usado para analizar las relaciones entre: Una sola X predictora y una sola Y Múltiples predictores X y una sola Y Varios predictores X entre sí Análisis de Regresión

22 22 Supuestos de la regresión lineal Los principales supuestos que se hacen en el análisis de regresión lineal son los siguientes: La relación entre las variables Y y X es lineal, o al menos bien aproximada por una línea recta. El término de error tiene media cero. El término de error tiene varianza constante 2. Los errores no están correlacionados. Los errores están normalmente distribuidos.

23 23 Modelo de regresión lineal Se aume que para cualquier valor de X el valor observado de Y varia en forma aleatoria y tiene una distribución de probabilidad normal El modelo general es: Y = Valor medio de Yi para Xi + error aleatorio

24 La línea de regresión se calcula por el método de mínimos cuadrados. Un residuo es la diferencia entre un punto de referencia en particular (x i, y i ) y el modelo de predicción ( y = a + bx ). El modelo se define de tal manera que la suma de los cuadrados de los residuales es un mínimo. La suma residual de los cuadrados es llamada con frecuencia la suma de los cuadrados de los errores (SSE) acerca de la línea de regresión eiei xixi yiyi SSE = e i 2 = y i - y i 2 y = b0 + b1x Regresión Lineal Simple a y b son Estimados de 0 y 1

25 Gráfica de la Línea de Ajuste Recta de regresión Y= X R 2 =.895 Altura del muelle Retención Regresión 95% Intervalo de confianza 95% Intervalo de predicción

26 26 Interpretación de los Resultados El intervalo de predicción es el grado de certidumbre de la difusión de la Y estimada para puntos individuales X. En general, 95% de los puntos individuales (provenientes de la población sobre la que se basa la línea de regresión), se encontrarán dentro de la banda [Líneas azules] La ecuación de regresión (Y = X) describe la relación entre la variable predictora X y la respuesta de predicción Y. R 2 (coef. de determinación) es el porcentaje de variación explicado por la ecuación de regresión respecto a la variación total en el modelo El intervalo de confianza es una banda con un 95% de confianza de encontrar la Y media estimada para cada valor de X [Líneas rojas]

27 Interpretación de los Resultados Los valores p de la constante (intersección en Y) y las variables de predicción, se leen igual que en la prueba de hipótesis. Ho: El factor no es significativo en la predicción de la respuesta. Ha: El factor es significativo en la predicción de la respuesta. s es el error estándar de la predicción = desviación estándar del error con respecto a la línea de regresión. R 2 (ajustada) es el porcentaje de variación explicado por la regresión, ajustado por el número de términos en el modelo y por el número de puntos de información. El valor p para la regresión se usa para ver si el modelo completo de regresión es significativo. Ho: El modelo no es significativo en la predicción de la respuesta. Ha: El modelo es significativo en la predicción de la respuesta.

28 28 Errores residuales Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de regresión los errores indicados por segmentos verticales.

29 29 Errores residuales Los residuos pueden ser graficados para: Checar normalidad. Checar el efecto del tiempo si su orden es conocido en los datos. Checar la constancia de la varianza y la posible necesidad de transformar los datos en Y. Checar la curvatura de más alto orden que ajusta en las Xs. A veces es preferible trabajar con residuos estandarizados o estudentizados:

30 30 Errores residuales Análisis de los errores o residuales

31 31 Ejemplo Considere el problema de predecir las ventas mensuales en función del costo de publicidad. Calcular el coeficiente de correlación, el de determinación y la recta. MESPublicidadVentas

32 32 Cálculo manual Calcular columnas para Suma X, Suma Y, Xi 2, XiYi y Yi 2 XiYi MESPublicidadVentas Xi 2 XiYiYi SUMA ,569

33 33 Método de mínimos cuadrados Donde: Yest = Valor predicho de para un valor particular de x. b0 =Estimador puntual de.(ordenada al origen) b1=Estimador puntual de (pendiente) Para el cálculo de b0 y b1 se utilizamos las siguientes fórmulas:

34 34 Análisis de varianza en la regresión La desviación estándar S corresponde a la raíz cuadrada del valor de MSE o cuadrado medio residual. Los residuos son:

35 35 Análisis de varianza en la regresión Las conclusiones son como sigue: Intervalos de confianza para Beta 0 y Beta 1

36 36 Análisis de varianza en la regresión El intervalo de confianza para la desviación estándar es: Intervalos de confianza para la Y estimada promedio Intervalo de predicción para un valor particular de Y estimado

37 37 Análisis de varianza en la regresión Prueba de Hipótesis para Beta 1: Ho: 1 = 0 contra H1: 1 0 Si el coeficiente Beta 1 es significativo

38 38 Análisis de varianza en la regresión Coeficiente de correlación r: Coeficiente de determinación: r2 R2 mide la proporción de la variación total respecto a la media que es explicada por la regresión. Se expresa en porcentaje.

39 39 Análisis de varianza en la regresión Prueba de hipótesis para el Coeficiente de correlación r: H0: = 0 contra H1: 0 Si se rechaza la hipótesis Ho, indicando que existe una correlación significativa

40 40 Riesgos de la regresión Los modelos de regresión son válidos como ecuaciones de interpolación sobre el rango de las variables utilizadas en el modelo. No pueden ser válidas para extrapolación fuera de este rango. Mientras que todos los puntos tienen igual peso en la determinación de la recta, su pendiente está más influenciada por los valores extremos de X.

41 41 Riesgos de la regresión Los outliers u observaciones aberrantes pueden distorsionar seriamente el ajuste de mínimos cuadrados. Si se encuentra que dos variables están relacionadas fuertemente, no implica que la relación sea casual, se debe investigar la relación causa – efecto entre ellas. Por ejemplo el número de enfermos mentales vs. número de licencias recibidas.

42 42 Cálculo manual (cont..) Cálculo de la recta de regresión lineal: Sxx = (9.4)^2/10 = Sxy = (9.4)(959) / 10 = Ymedia = 959 / 10 = 95.9Xmedia = 9.4 / 10 = 0.94 b1 = Sxy / Sxx = / = b0 = Ymedia - b1*Xmedia = ( )(0.94) = Yest. = * X

43 43 Ejemplo (cont..) Cálculo de S 2 estimador de S 2 = SSE / (n - 2) = Syy - (Sxy)^2/Sxx Syy = 93,569 - (959)^2 / 10 = SSE = Syy - b1*Sxy = (52.567)(23.34) = S 2 = SSE / (n - 2) = / 8 = S = 6.84 El intervalo de confianza donde caerán el 95% de los puntos es el rango de 1.96S = o sea a de la línea.

44 44 Ejemplo (cont..) Inferencias respecto a la pendiente de la línea b1: Se usa el estadístico t = b1 / (S / Sxx) El término del denominador es el error estándar de la pendiente. Para probar la hipótesis nula Ho: 1 = 0 En este caso tc = / (6.84 / 0.444) = 5.12 El valor crítico tcrit. para alfa/2 = con (n-2) = 8 grados de libertad es Como tc > tcrítico se rechaza la hipótesis de que b1 = 0 existiendo la regresión.

45 45 Ejemplo (cont..) Estableciendo un 95% de confianza para la pendiente de la recta b1. Usando la fórmula b1 t (S / Sxx) se tiene: * 6.84 / = Por tanto una unidad de incremento en publicidad, hará que el volumen de ventas se encuentre entre $28.9 a $76.2.

46 46 Ejemplo (cont..) Cálculo del coeficiente de Correlación: ________ r = Sxy / (SxxSyy) ____________ r = / 0.444* = 0.88 Como r es positivo, la pendiente de la recta apunta hacia arriba y a la derecha. El coeficiente de determinación r^2 = 1 - SSE/Syy r^2 = ( Syy - SSE ) / Syy = 0.774

47 47 1. Teclear los datos para Xi y Yi 2. Llamar a TOOLS o HERRAMIENTAS, DATA ANALYSIS o ANALISIS DE DATOS, CORRELATION o CORRELACIÓN 3. Dar INPUT RANGE (rango de datos), OUTPUT RANGE (para los resultados) y obtener los resultados Column 1Column 2 Column Column El coeficiente de correlación r = Análisis de Regresión

48 48 Cálculo con Excel) 4. Llamar a TOOLS o HERRAMIENTAS, DATA ANALYSIS o ANALISIS DE DATOS, REGRESION o REGRESIÓN 3. Dar INPUT RANGE Y (rango de datos Yi), INPUT RANGE X (rango de datos Xi), CONFIDENCE INTERVAL 95%, OUTPUT RANGE (para los resultados), RESIDUAL PLOTS o GRAFICAS DE RESIDUALES y obtener una tabla de resultados como los que se muestran en las páginas siguientes. NOTAS: a) La gráfica de probabilidad normal debe mostrar puntos fácilmente aproximables por una línea recta, indicando normalidad. B) La gráfica de residuos estandarizados se deben distribuir en forma aleatoria alrededor de la línea media igual a cero.

49 Resultados de Excel SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations10 ANOVA dfSSMSFSignificance F Regression Residual Total Confidence 95% Coefficients Standard Errort Stat P-value Lower Upper Intercept X Variable La ecuación de la recta es Yest = X Como los valores p para los coeficientes son menores a 0.05, ambos son significativos

50 50 Gráfica normal de Excel

51 51 Gráfica de Residuos vs. X de Excel

52 52 Ejercicio Calcular la recta de predicción con sus bandas de confianza, la correlación y la determinación para la respuesta de un Taxi, los datos se muestran a continuación: DistanciaTiempo

53 53 Relaciones no Lineales ¿Qué pasa si existe una relación causal, no lineal? El siguiente es un conjunto de datos experimentales codificados, sobre resistencia a la compresión de una aleación especial: Resistencia a Concentración la Compresión x y (ref. Walpole & Myers, 1985) ¿Cómo describiría esta relación?

54 54 Y = X E-02X**2 R 2 = Análisis de Variancia FUENTE DF SS MS F p Regresión E-03 Error Total FUENTE DF Seq SS F p Lineal E-03 Cuadrática E-02 Resultados del Análisis de Regresión - Modelo Cuadrático

55 55 Regresión cuadrática

56 56 Regresión cuadrática

57 57 Regresión cuadrática Los residuos No son normales Se deben transformar Las variables

58 Otros Patrones No Lineales A veces es posible transformar una o ambas variables, para mostrar mejor la relación entre ambas. La meta es identificar la relación matemática entre las variables, para que con la variable transformada se obtenga una línea más recta. Algunas transformaciones comunes incluyen: x = 1/x x = Raíz cuadrada de (x) x = log x Funciones trigonométricas: x = Seno de x

59 59 Trasformación de funciones Ejemplo: sea se transforma como

60 60 Transformación de variables del ejemplo de regresión cuadrática Transformando la variable X = 1/X se tiene, utilizando Minitab

61 61 Transformación de variables del ejemplo de regresión cuadrática Transformando la variable X = 1/X se tiene, utilizando Minitab

62 62 Transformación de variables del ejemplo de regresión cuadrática Los residuos ahora ya se muestran normales

63 63 Transformación para homoestacidad de la varianza Algunas transformaciones para estabilizar la varianza

64 64 Transformación para homoestacidad de la varianza Ejemplo: Se hizo un estudio entre la demanda (Y) y la energía eléctrica utilizada (X) durante un cierto periodo de tiempo

65 65 Transformación para homoestacidad de la varianza Ejemplo: Se hizo un estudio entre la demanda (Y) y la energía eléctrica utilizada (X) durante un cierto periodo de tiempo

66 66 Transformación para homoestacidad de la varianza Se observa que la varianza se incrementa conforme aumenta X

67 67 Transformación para homoestacidad de la varianza Se observa que la varianza se incrementa conforme aumenta X

68 68 Transformación para homoestacidad de la varianza Transformando a X por su raíz cuadrada se tiene:

69 69 Transformación para homoestacidad de la varianza Transformando a X por su raíz cuadrada se tiene:

70 70 Transformación para homoestacidad de la varianza Transformando a X por su raíz cuadrada se tiene:

71 71 Regresión lineal múltiple

72 72 Regresión múltiple Cuando se usa más de una variable independiente para predecir los valores de una variable dependiente, el proceso se llama análisis de regresión múltiple, incluye el uso de ecuaciones lineales. Se asume que los errores u tienen las características siguientes: Tienen media cero y varianza común 2. Son estadísticamente independientes. Están distribuidos en forma normal.

73 73 Regresión múltiple Estimación de los parámetros del modelo Se trata de minimizar los errores cuadráticos en: El modelo de regresión múltiple en forma matricial es: Y = X + = [1 : D] + Y es un vector N x 1. X es una matriz de orden N x (k + 1), donde la 1ª. columna es 1s. es un vector de orden (k + 1) x 1. es un vector de orden N x 1. D es la matriz de Xij con i = 1, 2,..., N; j = 1, 2,......, k

74 74 Regresión múltiple Estimación de los parámetros del modelo: b = (XX)-1 XY El vector de valores ajustados se puede expresar como: La varianza del modelo se estima como:

75 75 Tamaño de muestra Tomar 5 observaciones para cada una de las variables independientes, si esta razón es menor de5 a 1, se tiene el riesgo de sobreajustar el modelo Un mejor nivel deseable es tomar 15 a 20 observaciones por cada variable independiente

76 76 Ejemplo de regresión múltiple Un embotellador está analizando las rutas de servicio de máquinas dispensadoras, está interesado en predecir la cantidad de tiempo requerida por el chofer para surtir las máquinas en el local (Y). La actividad de servicio incluye llenar la máquina con refrescos y un mantenimiento menor. Se tienen como variables el número de envases con que llena la máquina (X1) y la distancia que tiene que caminar (X2).

77 77 Ejemplo de regresión múltiple

78 78 Ejemplo de regresión múltiple Solución matricial

79 79 Ejemplo de regresión múltiple Solución matricial

80 80 Ejemplo de regresión múltiple Solución matricial

81 81 Ejemplo de regresión múltiple Solución matricial Intervalo de confianza para Beta 1 Por tanto el intervalo de confianza para el 95% es:

82 82 Ejemplo de regresión múltiple Solución matricial El embotellador desea construir un intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo: X1 = 8 envases y cuya distancia es X2 = 275 pies. La varianza de la Y0 estimada es (tomando M8=inv(XX) :

83 83 Ejemplo de regresión múltiple Solución matricial El intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo es para 95% de nivel de confianza: Que se reduce a: Y

84 84 Ejemplo de regresión múltiple Solución matricial El análisis de varianza es:

85 85 Ejemplo de regresión múltiple Solución matricial El comportamiento de los residuos es como sigue:

86 86 Multicolinealidad La multicolinealidad implica una dependencia cercana entre regresores (columnas de la matriz X ), de tal forma que si hay una dependencia lineal exacta hará que la matriz XX sea singular. La presencia de dependencias cercanamente lineales impactan dramáticamente en la habilidad para estimar los coeficientes de regresión. La varianza de los coeficientes de la regresión son inflados debido a la multicolinealidad. Es evidente por los valores diferentes de cero que no están en la diagonal principal de XX. Que son correlaciones simples entre los regresores.

87 87 Multicolinealidad Una prueba fácil de probar si hay multicolinealidad entre dos variables es que su coeficiente de correlación sea mayor a 0.7 Los elementos de la diagonal principal de la matriz XX se denominan Factores de inflación de varianza (VIFs) y se usan como un diagnóstico importante de multicolinealidad. Para el componente j – ésimo se tiene: Si es mayor a 10 implica que se tienen serios problemas de multicolinealidad.

88 88 Análisis de los residuos Los residuos graficados vs la Y estimada, pueden mostrar diferentes patrones indicando adecuación o no adecuación del modelo: Gráfica de residuos aleatorios cuya suma es cero (null plot) indica modelo adecuado Gráfica de residuos mostrando una no linealidad curvilínea indica necesidad de transformar las variables Si los residuos se van abriendo indica que la varianza muestra heteroestacidad y se requiere transformar las variables. Se puede probar con la prueba de Levene de homogeneidad de varianzas

89 89 Escalamiento de residuos En algunos casos es difícil hacer comparaciones directas entre los coeficientes de la regresión debido a que la magnitud de bj refleja las unidades de medición del regresor Xj. Por ejemplo: Para facilitarla visualización de residuos ante grandes diferencias en los coeficientes, se sugiere estandarizar o estudentizar los residuos

90 90 Escalamiento de residuos Residuos estandarizados Se obtienen dividiendo cada residuo entre la desviación estándar de los residuos Después de la estandarización, los residuos tienen una media de 0 y desviación estándar de 1 Con más de 50 datos siguen a la distribución t, de manera que si exceden a 1.96 (límite para alfa 0.05) indica significancia estadística y son outliers

91 91 Escalamiento de residuos Residuos estudentizados Son similares a los residuos donde se elimina una observación y se predice su valor, pero además se elimina la i-ésima observación en el cálculo de la desviación estándar usada para estandarizar la í-ésima observación Puede identificar observaciones que tienen una gran influencia pero que no son detectadas por los residuos estandarizados H = X (XX)-1X es la matriz sombrero o hat matriz.

92 92 Escalamiento de residuos El estadístico PRESS (Prediction Error Sum of Squares) es una medida similar a la R2 en la regresión. Difiere en que se estiman n-1 modelos de regresión. En cada modelo se omite una observación en la estimación del modelo de regresión y entonces se predice el valor de la observación omitida con el modelo estimado. El residuo iésimo será: El residuo PRESS es la suma al cuadrado de los residuos individuales e indica una medida de la capacidad de predicción

93 93 Gráficas parciales de regresión Para mostrar el impacto de casos individuales es más efectiva la gráfica de regresión parcial. Un caso outlier impacta en la pendiente de la ecuación de regresión (y su coeficiente). Una comparación visual de la gráfica de regresión parcial con y sin la observación muestra la influencia de la observación El coeficiente de correlación parcial es la correlación de la variable independiente Xi la variable dependiente Y cuando se han eliminado de ambos Xi y Y La correlación semiparcial refleja la correlación entre las variables independiente y dependiente removiendo el efecto Xi

94 94 Matriz sombrero Los puntos de influencia son observaciones substancialmente diferentes de las observaciones remanentes en una o más variables independientes Contiene valores (sombrero en su diagonal) para cada observación que representa influencia. Representa los efectos combinados de todos las variables independientes para cada caso

95 95 Matriz sombrero Los valores en la diagonal de la matriz sombrero miden dos aspectos: Para cada observación miden la distancia de la observación al centro de la media de todas las observaciones de las variables independientes Valores altos en la diagonal indica que la observación tiene mucho peso para la predicción del valor de la variable dependiente, minimizando su residuo El rango de valores es de 0 a 1, con media p/n, p es el número de predictores y n es el tamaño de muestra. Valores límite se encuentran en 2p/n y 3p/n

96 96 Distancia de Mahalanobis D 2 es una medida comparable a los valores sombrero (hat values) que considera sólo la distancia de una observación del valor medio de las variables independientes. Es otra forma de identificar outliers La significancia estadística de la distancia de Malahanobis se puede hacer a partir de tablas del texto: Barnett, V., Outliers in Statistical Data, 2nd. Edition, Nueva York, Wiley, 2984

97 97 Influencia en coeficientes individuales El impacto de eliminar una observación simple en cada uno de los coeficientes de la regresión múltiple se muestra con la DFBETA y su versión estandarizada SDFBETA. Se sugiere aplicar como límites ±1.0 o ±2 para tamaños de muestra pequeños y ±n para muestras medias y grandes La distancia de Cook (Di) captura el impacto de una observación: La dimensión del cambio en los valores pronosticados cuando se omite la observación y la distancia de las otras observaciones, el límite es 1 o 4/(n-k-1)

98 Influencia en coeficientes individuales La medida COVRATIO estima el efecto de la observación en la eficiencia del proceso, en sus errores estándar de los coeficientes de la regresión. Considera a todos los coeficientes colectivamente. El límite puede ser establecido en 1 ±3p/n, los valores mayores al límite hacen el proceso más eficiente y los menores más ineficiente La medida SDFFIT es el grado en que cambian los valores ajustados o pronosticados cuando el caso se elimina. El valor límite es 2*raíz((k+1)/(n-k-1))

99 99 Ejemplo de regresión múltiple Solución con Excel y Minitab

100 100 Ejemplo de Regresión Múltiple Cat. (US News) GMAT Salario Inicial ($) % Aceptación Stanford Harvard Penn (Wharton) MIT (Sloan) Chicago Northwestern Columbia Dartmouth Duke Berkeley Virginia Michigan NYU Carnegie Mellon Yale U.N.C UCLA Texas-Austin Indiana Cornell Rochester Ohio State Emory Purdue Maryland

101 Interpretación de Resultados de Excel- Regresión Multiple SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations25 ANOVA dfSS MS F Significance F Regression31.12E E-07 Residual213.45E Total241.47E+09 Coefficients Standard t Stat P-value Lower 95% U pper 95% Error Intercept X Variable X Variable X Variable

102 Resultados de Excel- Regresión sólo con sólo X1 SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations25 ANOVA dfSSMS F Significance F Regression11.08E E E-08 Residual233.93E Total241.47E+09 Coefficients Standard Errort StatP-valueLower 95% Upper 95% Intercept E X Variable E Con sólo X1, el Modelo se simplifica enormemente poca importancia práctica se pierde en R 2 (ajustada) Con sólo X1, el Modelo se simplifica enormemente poca importancia práctica se pierde en R 2 (ajustada)

103 La ecuación de regresión es: y = x Predictor Coef Desv. EstándarTp Constante x S = 4133 R 2 = 73.3% R 2 (ajustada) = 72.1% Análisis de Variancia Fuente DFSS MS F p Regresión Error Total Reducción del Modelo Vuelva a correr la regresión usando la categoría US News, como el único agente de predicción (predictor) El Modelo se simplifica enormemente..…poca importancia práctica se pierde en R 2 (ajustada) El Modelo se simplifica enormemente..…poca importancia práctica se pierde en R 2 (ajustada)

104 104 Corrida en Minitab Se introducen los datos en varias columnas C1 a C5 incluyendo la respuesta Y (heatflux) y las variables predictoras Xs (North, South, East) HeatFluxInsolationEastSouthNorth

105 105 Corrida en Minitab Utilzar el archivo de ejemplo Exh_regr.mtw Opción: Stat > Regression > Regression Para regresión lineal indicar la columna de respuesta Y (Score2) y X (Score1) En Regresión lienal en opciones se puede poner un valor Xo para predecir la respuesta e intervalos. Las gráficas se obtienen Stat > Regression > Regression > Fitted line Plots Para regresión múltiple Y (heatflux) y las columnas de los predictores (north, south, east)

106 106 Resultados de la regresión lineal The regression equation is Score2 = Score1 Predictor Coef SE Coef T P Constant Score S = R-Sq = 95.7% R-Sq(adj) = 95.1% Analysis of Variance Source DF SS MS F P Regression Residual Error Total Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI ( , ) ( , ) New Obs Score

107 107 Resultados de la regresión lineal

108 108 Resultados de la regresión Múltiple The regression equation is HeatFlux = North South East Predictor Coef SE Coef T P Constant North South East S = R-Sq = 87.4% R-Sq(adj) = 85.9% Analysis of Variance Source DF SS MS F P Regression Residual Error Total Source DF Seq SS North South East

109 109 La regresión sólo puede utilizarse con información de variables continuas. Los residuos deben distribuirse normalmente con media cero. Importancia práctica: (R 2 ). Importancia estadística: (valores p) La regresión puede usarse con un predictor X o más, para una respuesta dada Reduzca el modelo de regresión cuando sea posible, sin perder mucha importancia práctica Resumen de la Regresión

110 110 VI.A.4 Herramientas multivariadas

111 111 Herramientas multivariadas 1. Introducción 2. Análisis de componentes principales 3. Análisis factorial 4. Análisis discriminante 5. MANOVA

112 112 Introducción En el análisis multivariado se incluyen dos o más variables dependientes Y1, Y2, etc. Consideradas simultáneamente para las variables independientes X1, X2, …., Xn Normalmente se resuelven con herramientas computacionales tales como Minitab y SPSS. Entre las herramientas principales se encuentran: Componentes principales, análisis factorial, análisis discriminante, análisis de conglomerados, análisis canónico, MANOVA

113 113 Análisis de componentes principales El análisis (PCA) y el análisis factorial (FA) se usan para encontrar patrones de correlación entre muchas variables posibles y subconjuntos de datos Busca reducirlas a un menor número de componentes o factores que representen la mayor parte de la varianza. Normalmente se requieren al menos cinco observaciones por variable

114 114 Análisis de componentes principales Pasos de análisis en Minitab Se usa una matriz de correlación para determinar la relación entre componentes Las matrices definen cantidades como eigenvalores y eigenvectores Se suman los eigenvalores y se calculan las proporciones de cada componente Se identifican los PC1, PC2, … que explican la mayor parte de la varianza Se puede hacer un diagrama de Pareto como apoyo

115 115 Ejemplo: Alimentos en Europa

116 116 Corrida en Minitab 2 Stat > Multivariate > Principal components 3 En Variables, X1, X2, X3, X4, X6, X7, X8, X9 4 En Number of factors to extract, 3. Seleccionar Correlation Matrix 5 Click Graphs y seleccionar Scree Plot, Score plot for first 2 components Loading plot for first 2 components 8 Click Storage e indicar las columnas donde se guarden los coeficientes y los valores Z (scores) Coef1 Coef 2 y Z1 Z2 9. Click OK en cada uno de los cuadros de diálogo

117 117 Ejemplo: Alimentos en Europa Dos componentes exceden El eigenvalor de ref. de 1

118 118 Ejemplo: Alimentos en Europa

119 119 Análisis factorial Es una técnica de reducción de variables para identificar factores que expliquen la variación, aunque se reiere un juicio subjetivo. Las variables de salida están relacionadas linealmente con las variables de entrada. Las variables deben ser medibles y simétricas. Debe haber cuatro o más factores de entrada para cada variable independiente

120 120 Análisis factorial Se especifican un cierto número de factores comunes El análisis factorial se hace en dos etapas: Extracción de factores, para identificar los factores principales para un estudio posterior Rotación de factores, para hacerlos más significativos

121 121 Corrida con Minitab 2 Stat > Multivariate > Factor Analysis. 3 En Variables, X1, X2, X3, X4, X6, X7, X8, X9 4 En Number of factors to extract, 4. En Method of Extraction, seleccionar Principal components 6 En Type of Rotation, seleccionar Varimax. 7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot. Click Results y seleccionar Sort loadings. Seleccionar Storage e indicar columnas para ponderaciones, coeficientes, Zs, eigenvalores, etc. Click OK en cada uno de los cuadros de d

122 122 Ejemplo

123 123 Ejemplo:

124 124 Análisis discriminante Si se tiene una muestra con grupos conocidos, el análisis discriminante clasifica las observaciones o atributos en dos o más grupos Puede utilizarse como herramienta predictiva o descriptiva Las variables deben ser multivariadamente normales, con la misma varianza y covarianza poblacional entre variables dependientes, y las muestras exhiben independencia

125 125 Ejemplo de actividades en países

126 126 Corrida con Minitab 2 Stat > Multivariate > Discriminant Analysis. 3 En Groups, poner SalmonOrigin. 4 En Predictors, poner Freshwater Marine. Click OK.

127 127 Corrida con Minitab

128 128 Análisis de conglomerados

129 129 Análisis de conglomerados Se usa para determinar agrupaciones o clasificaciones de un conjunto de datos Las personas se pueden agrupar por IQ, padres, hábitos de estudio, etc. Se trata de dar sentido a grandes cantidades de datos de cuestionarios, ecnuestas, etc.

130 130 Ejemplo Suponer que un estudio de mercado trata de determinar segmentos de mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2), medidas del 0 al 10 en 7 personas (A-G). VariablesV1V2 A32 B45 C47 D27 E66 F77 G64

131 131 Corrida en Minitab Stat > Multivariate Análisis > Cluster Observations Distance Measured Euclidean Seleccionar Show Dendogram OK

132 132 Análisis de correlación canónico Prueba la hipótesis de que los efectos pueden tener causas múltiples y de que las causas pueden tener efectos múltiples (Hotelling 1935) Es como una regresión múltiple para determinar la correlación entre dos conjuntos de combinaciones lieneales, cada conjunto puede tener varias variables relacionadas. La relación de un conjunto de variables dependientes a un conjunto de variables independientes forma combinaciones lineales

133 133 Análisis de correlación canónico Se usan los más altos valores de correlación para los conjuntos. Los pares de combinaciones lineales se denominan variates canónicas con correlaciones canónicas (Rc con valor mayor a 0.3) Por ejemplo se quiere determinar si hay una correlación entre las características de un ingeniero industrial y las habilidades requeridas en la descripción de puesto del mismo ingeniero.

134 134 MANOVA (Análisis de varianza múltiple) Es un modelo para analizar la relación entre una o más variables independientes y dos o más variables dependientes Prueba si hay diferencias significativas en las medias de grupos de una combinanción de respuestas Y. Los datos deben ser normales, con covarianza homogenea y observaciones independientes

135 135 MANOVA (Análisis de varianza múltiple)

136 136 Diferencias de ANOVA y MANOVA

137 137 Ejemplo: Extrusión de película plástica Se realiza un estudio para determinar las condiciones óptimas para extruir película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco veces en cada combinación de dos factores – tasa de extrusión y cantidad de aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA balanceado para probar la igualdad de las medias.

138 138 Ejemplo: Extrusión de película plástica

139 139 Ejemplo: Extrusión de película plástica 1 Abrir el archivo EXH_MVAR.MTW. 2 Seleccionar Stat > ANOVA > Balanced MANOVA. 3 En Responses, poner Tear Gloss Opacity. 4 En Model, poner Extrusion | Additive. 5 Click Results. En Display of Results, seleccionar Matrices (hypothesis, error, partial correlations) y Eigen analysis. 6 Click OK en cada cuadro de diálogo.

140 140 Ejemplo

141 141 Ejemplo: Extrusión de película plástica Las matrices SSCP evalúan la contribución a la variabilidad de manera similar a la suma de cuadrados en la ANOVA univariada. Las correlaciones parciales entre Tear y Gloss son pequeñas. Como la estructura de las correlaciones es débil, se pueden realizar análisis univariados de ANOVA para cada una de las respuestas.

142 142 VI.A.4 Estudios Multivari

143 143 Estudios Multivari La carta multivari permite analizar la variación dentro de la pieza, de pieza a pieza o de tiempo en tiempo Permite investigar la estabilidad de un proceso consiste de líneas verticales u otro esquema en función del tiempo. La longitud de la línea o del esquema representa el rango de valores encontrados en cada conjunto de muestras

144 144 Estudios Multivari La variación dentro de las muestras (cinco puntos en cada línea). La variación de muestra a muestra como posición vertical de las líneas. ESPESORESPESOR Número de subgrupo

145 145 Estudios Multivari Ejemplo de parte metálica Centro más grueso

146 146 Estudios Multivari Procedimiento de muestreo: Seleccionar el proceso y la característica a investigar Seleccionar tamaño de muestra y frecuencia de muestreo Registrar en una hoja la hora y valores para conjunto de partes

147 147 Estudios Multivari Procedimiento de muestreo: Realizar la carta Multivari Unir los valores observados con una línea Analizar la carta para variación dentro de la parte, de parte a parte y sobre el tiempo Puede ser necesario realizar estudios adicionales alrededor del área de máxima variación aparente Después de la acción de mejora comprobar con otro estudio Multivari

148 148 Su propósito fundamental es reducir el gran número de causas posibles de variación, a un conjunto pequeño de causas que realmente influyen en la variabilidad. Sirven para identificar el patrón principal de variación de entre tres patrones principales: Temporal: Variación de hora a hora; turno a turno; día a día; semana a semana; etc. Cíclico: Variación entre unidades de un mismo proceso; variación entre grupos de unidades; variación de lote a lote. Cartas Multivari

149 149 Posicional: 4 Variaciones dentro de una misma unidad (ejemplo: porosidad en un molde de metal) o a través de una sola unidad con múltiples partes (circuito impreso). 4 Variaciones por la localización dentro de un proceso que produce múltiples unidades al mismo tiempo. Por ejemplo las diferentes cavidades de un molde 4 Variaciones de máquina a máquina; operador a operador; ó planta a planta Cartas Multivari

150 150 Ejemplo: Se toman 3 a 5 unidades consecutivas, repitiendo el proceso tres o más veces a cierto intervalo de tiempo, hasta que al menos el 80% de la variación en el proceso se ha capturado. A VARIACIÓN POSICIONAL DENTRO DE LA UNIDAD Cartas Multivari

151 151 Ejemplo: (cont...) B VARIACIÓN CÍCLICA DE UNIDAD A UNIDAD Cartas Multivari

152 152 Ejemplo: (cont...) C VARIACIÓN TEMPORAL DE TIEMPO A TIEMPO Cartas Multivari

153 153 Ejemplo: Un proceso produce flecha cilíndricas, con un diámetro especificado de Sin embargo un estudio de capacidad muestra un Cp = 0.8 y una dispersión natural de (6 ) contra la permitida de Se tiene pensado comprar un torno nuevo de US$70,000 para tolerancia de , i.e. Cpk = Se sugirió un estudio Multi Vari previo. Cartas Multivari

154 154 Se tomaron cuatro lecturas en cada flecha, dos a cada lado. Estas muestran una disminución gradual desde el lado izquierdo al lado derecho de las flechas, además de excentricidad en cada lado de la flecha. La variación cíclica, de una flecha a la siguiente, se muestra mediante las líneas que concentran las cuatro lecturas de cada flecha. También se muestra la variación temporal. Cartas Multivari

155 Cartas Multivari Máximo Mínimo Izquierda Derecha 8 AM 9 AM 10 AM 11 AM 12 AM

156 156 Un análisis rápido revela que la mayor variación es temporal con un cambio mayor entre las 10 AM y las 11 AM. A las 10 AM se para el equipo para el almuerzo y se arranca a las 11 AM, con lecturas similares a las de las 8 AM. Conforme pasa el tiempo las lecturas tienden a decrecer más y más, hasta que se invierten a las 10 A.M. en forma drástica. Se investigó y se encontró que la temperatura tenía influencia en la variación. La variación en temperatura era causada por que la cantidad de refrigerante no era la adecuada, lo cual se notaba más cuando se paraba el equipo y se volvía a arrancar. Se adicionó, reduciendo la variación en 50% aproximadamente.. Cartas Multivari

157 157 También se encontró que el acabado cónico era causado por que la herramienta de corte estaba mal alineada. Se ajustó, contribuyendo a otra reducción del 10% de la variabilidad. La excentricidad de las flechas se corrigió al cambiar un rodamiento excéntrico por desgaste en el torno. Se instaló un nuevo rodamiento eliminándose otro 30% de la variabilidad. La tabla siguiente muestra un resumen de los resultados. Cartas Multivari

158 158 Tipo de % var.Causas deAcción % de variación VariaciónTotalVariaciónCorrectivaReducida Temporal50Bajo nivel de Adicionar Casi 50 Tiempo a tiempoRefrigeranterefrigerante Dentro de10Ajuste no Ajuste de laCasi 10 la flechano paraleloherramienta de corte Dentro de30 RodamientoNuevo Casi 30 la flechagastadorodamiento Flecha a 5-???-- flecha Cartas Multivari

159 159 Resultados: La variación total en la siguiente corrida de producción se redujo de a El nuevo Cp fue de / = 5.0 Como beneficios se redujo a cero el desperdicio y no hubo necesidad de adquirir una nueva máquina. Se observa que antes de cambiar equipo o máquinas, es conveniente realizar un estudio de variabilidad para identificar las fuentes de variación y tratar de eliminarlas. Cartas Multivari

160 160 Diámetro de Flecha (0.150" +/-.002) ProgramaMáquina Accesorios Operador a operador Ejemplo: Búsqueda de fuentes de variación con el diagrama sistemático. Cartas Multivari

161 161 Ejemplo (cont..): Al realizar la prueba de homogeneidad de varianza F, se encontró que había una diferencia significante entre los operadores. Se Rechaza Ho: Oper1 = Oper2 = Oper3 Para probar si existe diferencia significativa entre medias de operadores se hacen las siguientes comparaciones Ho: Oper1 = Oper2 Ho: Oper1 = Oper3 Ho: Oper2 = Oper3 Ha: Oper1 Oper2 Oper3 Cartas Multivari

162 162 Corrida en Minitab Se introducen los datos en varias columnas C1 a C3 incluyendo la respuesta (strenght) y los factores (time y Metal) SinterTimeMetalTypeStrength

163 163 Corrida en Minitab Utilizar el achivo de ejemplo Sinter.mtw Opción: Stat > Quality Tools > Multivari charts Indicar la columna de respuesta y las columnas de los factores En opciones se puede poner un título y conectar las líneas

164 164 Resultados

165 165 VI.A.5 Análisis de datos por atributos

166 166 Análisis de datos por atributos Si los CTQs son variables continuas, se usa la regresión, dependiendo de la naturaleza de la característica crítica para el cliente (CTSs) como éste la expresa: CTS HERRAMIENTA Nominal (Verde, Rojo, azul) Regresión Logística Nominal Atributo (Pasa/No pasa) Regresión Logística Binaria Ordinal (1, 2, 3, 4, 5) Regresión Logística Ordinal

167 167 Análisis de datos por atributos El análisis de datos por atributos se organiza en valores, categorías o grupos dicotómicos Las decisiones incluyen: si / no, pasa / no pasa, bueno / malo, pobre/justo/bueno/superior/excelente, etc. Entre los modelos no lineales de regresión usados se tienen: regresión logística, regresión logit y regresión probit

168 168 Análisis de datos por atributos Regresión logística Relaciona variables independientes categóricas a una variable dependiente (Y). Minitab incluye los modelos binario, ordinal y nominal Regresión logit Es subconjunto del modelo log-lineal. Tiene solo una variable dependiente, usa determinaciones de probabilidad o tasa de probabilidad

169 169 Análisis de datos por atributos Regresión probit Es similar a la prueba de vida acelerada, la unidad se somete a esfuerzo con la respuesta pasa/falla, bueno o malo. Es una respuesta binaria en un tiempo de falla futuro

170 170 Regresión logística o binaria En caso de información cualitativa es necesario traducir las preferencias del cliente expresadas como atributos a un intervalo de valores aceptables de variables (Especificaciones).

171 171 Regresión logística o binaria Es similar a la regresión múltiple excepto que la respuesta es binaria (si/no, bueno/malo, etc.) Sus coeficientes se determinan por el método de máxima verosimilitud Su función tiene forma de S, con valores máximos de Cero y Uno. Yi = 0, 1

172 172 Regresión logística o binaria La probabilidad de que el resultado esté en cierta categoría es: El método de cálculo del coeficiente b es diferente que en la regresión lineal Los coeficientes se determinan con la relación sig.:

173 173 Regresión logística Condiciones: Hay solo dos resultados posibles Hay solo un resultado por evento Los resultados son independientes estadísticamente Todos los predictores relevantes están en el modelo Es mutuamente exclusivo y colectivamente exhaustivo Los tamaños de muestra son mayores que para la regresión múltiple Los efectos positivos se obtienen con b1>1 y los negativos con b1 e 0 a 1

174 174 Regresión logística Relación con ajuste pobre Relación con buen ajuste

175 175 Regresión logística - Procedimiento Definir el atributo a traducir (y) Definir la variable apropiada para el atributo (x) Definir el modelo matemático a probar Determinar los defectos que está dispuesto a aceptar Recolecte información de x vs y. Asigne 1 si falla y 0 si es aceptable. Analice la información mediante Regresión Logística Binaria

176 176 Regresión logística- Procedimiento

177 177 Regresión logística - Procedimiento Observe el P-Value de Deviance en la Sesión, debe de ser grande (P >0.10) Obtenga los coeficientes del modelo (De la Sesión) Coeficientes del modelo P-Value de Deviance

178 178 Regresión logística - Procedimiento Construya el modelo de regresión para la probabilidad de falla estará dado por : Identifique el(los) valor(es) de x que le generarán como máximo la cantidad de defectos que usted está dispuesto a aceptar [4] Donde : b 0, b 1,... = Coeficientes del modelo P(Falla) = b 0 +b 1 x e 1 + e b 0 +b 1 x

179 179 Ejemplo de riesgo de paro cardiaco Para Fuma, el coeficiente negativo de y la tasa de posibilidades de 0.30, indica que quien fuma, tiende a tener una tasa de pulso más alta que los sujetos que no fuman. Si los sujetos tienen el mismo peso, las posibilidades de que los fumadores tengan un pulso bajo sea sólo del 30% de las posibilidades de que los no fumadores tengan un pulso bajo.

180 180 Regresión logística ordinal Cuando la respuesta ó CTS es de tipo ordinal (Varias categorías de respuesta como totalmente de acuerdo, de acuerdo, en desacuerdo y totalmente en desacuerdo) y el Factor ó CTQ es de naturaleza continua, entonces, para definir Especificaciones, la herramienta a utilizar es la Regresión Logística Ordinal.

181 181 Regresión logística ordinal - Procedimiento Defina la variable de respuesta a traducir (y ó CTS) Defina el CTQ (x) ó variable a relacionar con el CTS Defina el modelo matemático a probar Determine los defectos que está dispuesto a aceptar en la categoría de interés Recolecte información de x vs y Analice la información mediante Regresión Logística Ordinal

182 182 Regresión logística ordinal - Procedimiento Stat > Regression > Ordinal Logistic Regression Seleccione la respuesta (y) Seleccione los términos que estima tiene el modelo [3] Constantes y Coeficientes del modelo

183 183 Regresión logística ordinal - Procedimiento Observe el P-Value de Deviance en la Sesión, debe de ser grande (P >0.10) Obtenga las constantes y coeficientes del modelo (De la Sesión) Construya los modelos de regresión para la probabilidad acumulada por categoría

184 184 Regresión logística ordinal - Procedimiento e 1 + e Donde : K i = Constante de la categoría i b 1, b 2,... = Coeficientes del modelo acumulada hasta categoría i K i +b 1 x 1 + b 2 x = P Constantes y Coeficientes del modelo Identifique el(los) valor(es) de x que le generarán como máximo la cantidad de defectos que usted está dispuesto a aceptar en la categoría de interés [4]

185 185 Regresión logística ordinal - Procedimiento Una vez que se tienen establecidos los CTQs con los que se medirá el desempeño del producto, es necesario indicar las Especificaciones de los mismos Producto (General) Usuarios Finales Clientes Expectativas (CTSs) Tipo Importan. Producto (Específico) Parámetros de Diseño (DPs) Matriz de Diseño CTQs Especificaciones LIELSEOtra

186 186 Análisis Logit Usa razones para determinar que tanta posibilidad tiene una observación de pernecer a un grupo que a otro. Una posibilidad de 0.8 de estar en el grupo A se puede expresar como una tasa de posibilidades de 4:1 ( que es p/(1-p)), cuyo logaritmo es el logit. La probabilidad para un valor L está dado por la ecuación

187 187 Análisis Logit - ejemplo 50 estudiantes tomaron un examen, donde solo 27 pasaron. ¿Cuáles son las posibilidades de pasar? Posibilidades = P/(1-P) = 0.54/0.46 = 1.17 o 1.71:1 Un estudiante que estudia 80 horas tiene un 54.5% de pasar, ¿cuáles son las posibilidades? Posibilidades = 0.545/( ) = o 1.198:1 Logit = ln(p/(1-p)) = ln(1.189) = y despejando al Exp(b1) = exp(0.1082) = 1.11 que es la tasa de pasar a otro nivel

188 188 Análisis Probit Es similar a las pruebas de vida acelerada y análisis de sobrevivencia. Un artículo sujeto a esfuerzo puede fallar o sobrevivir. El modelo probit tiene un valor esperado de 0 y una varianza de 1. Requiere tamaños de muestra muy grandes para diferenciarse del modelo logit Los coeficientes b del modelo logit difieren del probit en con: bl = bp

189 189 VI.B Pruebas de hipótesis

190 190 VI.B Pruebas de hipótesis 1. Conceptos fundamentales 2. Estimación puntual y por intervalo 3. Pruebas para medias, varianzas y proporciones 4. Pruebas comparativas para varianzas, medias y prop. 5. Bondad de ajustes 6. Análisis de varianza (ANOVA) 7. Tablas de contingencia 8. Pruebas no paramétricas

191 191 VI.B.1 Conceptos fundamentales

192 192 Análisis Estadístico En CADA prueba estadística, se comparan algunos valores observados a algunos esperados u otro valor observado comparando estimaciones de parámetros (media, desviación estándar, varianza) Estas estimaciones de los VERDADEROS parámetros son obtenidos usando una muestra de datos y calculando los ESTADÏSTICOS... La capacidad para detectar un diferencia entre lo que es observado y lo que es esperado depende del desarrollo de la muestra de datos Incrementando el tamaño de la muestra mejora la estimación y tu confianza en las conclusiones estadísticas.

193 193 Conceptos fundamentales Hipótesis nula Ho Es la hipótesis o afirmación a ser probada Puede ser por ejemplo,,, = 5 Sólo puede ser rechazada o no rechazada Hipótesis alterna Ha Es la hipótesis que se acepta como verdadera cuando se rechaza Ho, es su complemento Puede ser por ejemplo = 5 para prueba de dos colas < 5 para prueba de cola izquierda > 5 para prueba de cola derecha Esta hipótesis se acepta cuando se rechaza Ho

194 194 Conceptos fundamentales Ejemplos: Se está investigando si una semilla modificada proporciona una mayor rendimiento por hectárea, la hipótesis nula de dos colas asumirá que los rendimientos no cambian Ho: Ya = Yb Se trata de probar si el promedio del proceso A es mayor que el promedio del proceso B. La hipótesis nula de cola derecha establecerá que el proceso A es <= Proceso B. O sea Ho: A <= B.

195 195 Conceptos fundamentales Estadístico de prueba Para probar la hipótesis nula se calcula un estadístico de prueba con la información de la muestra el cual se compara a un valor crítico apropiado. De esta forma se toma una decisión sobre rechazar o no rechazar la Ho Error tipo I (alfa = nivel de significancia, normal=.05) Se comete al rechazar la Ho cuando en realidad es verdadera. También se denomina riesgo del productor Error tipo II (beta ) Se comete cuando no se rechaza la hipótesis nula siendo en realidad falsa. Es el riesgo del consumidor

196 196 Conceptos fundamentales Tipos de errores Se asume que un valor pequeño para es deseable, sin embargo esto incrementa el riesgo. Para un mismo tamaño de muestra n ambos varían inversamente Incrementando el tamaño de muestra se pueden reducir ambos riesgos. Decisión realizadaHo en realidad es Verdadera Ho en realidad es falsa No hay evidencia para rechazar Ho p = 1- Decisión correcta p = Error tipo II Rechazar Ho p = Error tipo I p = 1 - Decisión correcta

197 197 Conceptos fundamentales Pruebas de dos colas Si la Ho:,,, = cte. que un valor poblacional, entonces el riesgo alfa se reparte en ambos extremos de la distribución. Por ejemplo si Ho = 10 se tiene:

198 198 Conceptos fundamentales Pruebas de una cola Si la Ho:,,, >= Cte. que un valor poblacional, entonces el riesgo alfa se coloca en la cola izquierda de la distribución. Por ejemplo si Ho: >= 10 y Ha: < 10 se tiene una prueba de cola izquierda:

199 199 Conceptos fundamentales Pruebas de una cola Si la Ho:,,, 10 se tiene una prueba de cola derecha:

200 200 Conceptos fundamentales Tamaño de muestra requerido Normalmente se determina el error alfa y beta deseado y después se calcula el tamaño de muestra necesario para obtener el intervalo de confianza. El tamaño de muestra (n) necesario para la prueba de hipótesis depende de: El riesgo deseado tipo I alfa y tipo II Beta El valor mínimo a ser detectado entre las medias de la población (Mu – Mu0) La variación en la característica que se mide (S o sigma)

201 201 Conceptos fundamentales El Tamaño de muestra requerido en función del error máximo E o Delta P intervalo proporcional esperado se determina como sigue:

202 202 Conceptos fundamentales Ejemplo: ¿Cuál es el tamaño de muestra mínimo que al 95% de nivel de confianza (Z=1.96) confirma la significancia de una corrida en la media mayor a 4 toneladas/hora (E), si la desviación estándar (sigma) es de 20 toneladas? n = (1.96^2)(20^2)/(4)^2 = 96 Obtener 96 valores de rendimiento por hora y determinar el promedio, si se desvía por más de 4 toneladas, ya ha ocurrido un cambio significativo al 95% de nivel de confianza

203 203 Efecto del tamaño de muestra

204 204 Efecto del tamaño de muestra

205 205 Efecto del tamaño de muestra

206 206 Efecto del tamaño de muestra

207 207 Potencia de la prueba La potencia de una prueba estadística es su habilidad para detectar una diferencia crítica Si Beta = 0.1 la potencia es del 90% Delta se puede normalizar dividiéndolo entre la desviación estándar y se expresa en un cierto número de (1, 1.5 )

208 208 Potencia de la prueba La potencia de la prueba es la probabilidad de de rechazar correctamente la hipótesis nula siendo que en realidad es falsa. El análisis de potencia puede ayudar a contestar preguntas como: ¿Cuántas muestras se deben tomar para el análisis? ¿Es suficiente el tamaño de muestra? ¿Qué tan grande es la diferencia que la prueba puede detectar? ¿Son realmente valiosos los resultados de la prueba?

209 209 Potencia de la prueba Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros: Tamaños de muestra Diferencias - un corrimiento significativo de la media que se desea detectar Valores de potencia - La probabilidad deseada de rechazar Ho cuando es falsa

210 210 Considerando la potencia de prueba

211 211 VI.2 Significancia estadística vs práctica

212 212 Estimación de riesgos

213 213 Pruebas de Minitab Permite hacer las siguientes pruebas: Prueba z de una muestra Prueba t de una muestra Prueba t de dos muestras Prueba de 1 proporción Prueba de 2 proporciones ANOVA Diseños factoriales de dos niveles Diseños de Packett Burman

214 214 Calculo manual

215 215 Calculo manual

216 216 VI.3 Tamaño de muestra

217 217 Calculo manual de tamaño de muestra

218 218 Calculo manual de tamaño de muestra – Pruebas de una cola

219 219 Calculo manual de tamaño de muestra – Pruebas de una cola

220 220 Ejemplo con prueba de una media t Ejemplo: Se tiene una población normal con media de 365 y límites de especificación de 360 y 370. Si la media se desplaza 2.5 gramos por arriba de la media, el número de defectos sería inaceptable, la desviación estándar histórica es de 2.403:

221 221 Ejemplo con prueba de una media t

222 222 Ejemplo con prueba de una media t

223 223 Ejemplo con prueba de una media t

224 224 Ejemplo con prueba de 2 medias t

225 225 Ejemplo con prueba de 1 proporción

226 226 Ejemplo con prueba de 1 proporción

227 227 Ejercicios Calcular los tamaños de muestra necesarios para los siguientes escenarios (usar pruebas de dos colas): a. 1-muestra Z à a=0.05, b=0.1 y 0.2, d = 1.5s b. 1-muestra t à a=0.05, b=0.1 y 0.2, d = 1.5s c. 1-muestra t à a=0.01, b=0.05, d = 0.5s y 1.0s d. 2-muestras t à a=0.05, b=0.1, d = 1.5s y 2.0s 2. Calcular la potencia de la prueba para los siguientes escenarios (usar pruebas de dos colas): a. 1-muestra Z à a=0.05, d = 0.5s, n = 25, 35 b. 1-muestra t à a=0.05, d = 1.0s, n = 10, 20 c. 1-muestra t à a=0.01, d = 1.0s, n = 10, 25 d. 2-muestras t à a=0.05, d = 0.5s, n = 10, 25, 50, 75, 100

228 228 Ejercicios Calcular el tamaño de muestra requerido para los siguientes escenarios (usar pruebas de dos colas): a. 1-proporción à a=0.05, b=0.1 & 0.2, P0 = 0.5, PA = 0.6 b. 1-proporción à a=0.01, b=0.1 & 0.2, P0 = 0.8, PA = 0.9 c. 2-proporción à a=0.05, b=0.1, P0 = 0.5, PA = 0.6, 0.8 d. 2-proporciones à a=0.01, b=0.1, P0 = 0.8, PA = 0.85, Calcular la potencia de la prueba para los siguientes escenarios (usar pruebas de dos colas): a. 1-proporción à a=0.05, P0 = 0.5, PA = 0.6, n = 250, 350 b. 1-proporción à a=0.01, P0 = 0.9, PA = 0.95, n = 400, 500 c. 2-proporciones à a=0.05, P0 = 0.5, PA = 0.6, n = 250, 350 d. 2-proporciones à a=0.01, P0 = 0.9, PA = 0.95, n = =400, 500

229 229

230 230

231 231 VI.B.4 Estimación puntual y por intervalo

232 232 Estimación puntual y por intervalo Las medias o desviaciones estándar calculadas de una muestra se denominan ESTADÍSTICOS, podrían ser consideradas como un punto estimado de la media y desviación estándar real de población o de los PARAMETROS. ¿Qué pasa si no deseamos una estimación puntual como media basada en una muestra, qué otra cosa podríamos obtener como margen, algún tipo de error? Un Intervalo de Confianza

233 233 Intervalo de confianza Error de estimación

234 234 Estimación puntual y por intervalo ¿Cómo obtenemos un intervalo de confianza? Estimación puntual + error de estimación ¿De dónde viene el error de estimación? Desv. estándar X multiplicador de nivel de confianza deseado Z /2 Por Ejemplo: Si la media de la muestra es 100 y la desviación estándar es 10, el intervalo de confianza al 95% donde se encuentra la media para una distribución normal es: (10) X 1.96 => (80.4, 119.6)1.96 = Z 0.025

235 235 Estimación puntual y por intervalo 95% de Nivel de Confianza significa que sólo tenemos un 5% de oportunidad de obtener un punto fuera de ese intervalo. Esto es el 5% total, o 2.5% mayor o menor. Si vamos a la tabla Z veremos que para un área de 0.025, corresponde a una Z de C. I. Multiplicador Z / Para tamaños de muestra >30, o conocida usar la distribución Normal Para muestras de menor tamaño, o desconocida usar la distribución t

236 236 Estimación puntual y por intervalo ; con n-1 gl.

237 237 Para n grande el IC es pequeño

238 238 Para n grande el IC es pequeño

239 239 Ejemplo Dadas las siguientes resistencias a la tensión: 28.7, 27.9, 29.2 y 26.5 psi Estimar la media puntual X media = con S = 1.02 Estimar el intervalo de confianza para un nivel de confianza del 95% (t = con n-1=3 grados de libertad) Xmedia±3.182*S/ n = ±3.182*1.02/2=( 26.46, 29.70)

240 240 Ejemplos para la media con Distribución normal Z Z 1. El peso promedio de una muestra de 50 bultos de productos Xmedia = Kgs., con S = Kgs. Determinar el intervalo de confianza al NC del 95% y al 99% donde se encuentra la media del proceso (poblacional). Alfa = 1 - NC 2. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones de laboratorio oscila entre 0.93 y 1.73 onzas. ¿Cuál es el valor de Z? latas de 16 onzas de salsa de tomate tienen una media de Xmedia = 15.2 onzas con una S = 0.96 onzas. ¿A un nivel de confianza del 95%, las latas parecen estar llenas con 16 onzas?. 4. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con S = Se rechaza la solución si el peso promedio de todo el lote no excede las 18 onzas. ¿Cuál es la decisión a un 90% de nivel de confianza?.

241 241 Ejemplos para la media y varianza con Distribución t t cajas de producto pesaron 102 grs. Con S = 8.5 grs. ¿Cuál es el intervalo donde se encuentra la media y varianza del lote para un 90% de nivel de confianza?. Grados libertad=20 -1 =19 6. Una muestra de 25 productos tienen un peso promedio de grs. Con una S = ¿Cuál es la estimación del intervalo de confianza para la media y varianza a un nivel de confianza del 95 y del 98% del peso de productos del lote completo?. 7. Los pesos de 25 paquetes enviados a través de UPS tuvieron una media de 3.7 libras y una desviación estándar de 1.2 libras. Hallar el intervalo de confianza del 95% paraestimar el peso promedio y la varianza de todos los paquetes. Los pesos de los paquetes se distribuyen normalmente.

242 242 Ejemplos para proporciones con Distribución Z Z 8. De 814 encuestados 562 contestaron en forma afirmativa. ¿Cuál es el intervalo de confianza para un 90% de nivel de confianza? 9. En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados ¿Se puede concluir con un 99% de nivel de confianza que el 78% se encuentra en el intervalo de confianza. ?

243 243 Instrucciones con Minitab Intervalo de confianza para la media Stat > Basic Statistics > 1-Sample Z, t Variable -- Indicar la columna de los datos o Summarized Data En caso de requerirse dar el valor de Sigma = dato En Options: Indicar el Confidence level -- 90, 95 o 99% OK

244 244 Instrucciones con Minitab Intervalo de confianza para proporción Stat > Basic Statistics > 1-Proportion Seleccionar Summarized Data Number of trials = n tamaño de la muestra Number of events = D éxitos encontrados en la muestra En Options: Indicar el Confidence Interval -- 90, 95 o 99% Seleccionar Use test and interval based in normal distribution

245 245 VI.B.5 Pruebas de hipótesis para medias, varianzas y proporciones

246 246 Elementos de una Prueba de Hipótesis Prueba Estadística- Procedimiento para decidir no rechazar Ho aceptando Ha o rechazar Ho. Hipótesis Nula (Ho) - Usualmente es una afirmación representando una situación status quo. Generalmente deseamos rechazar la hipótesis nula. Hipótesis Alterna (Ha) - Es lo que aceptamos si podemos rechazar la hipótesis nula. Ha es lo que queremos probar.

247 247 Elementos de una Prueba de Hipótesis Estadístico de prueba: Calculado con datos de la muestra (Z, t, X 2 or F). Región de Rechazo Indica los valores de la prueba estadística para que podamos rechazar la Hipótesis nula (Ho). Esta región esta basada en un riesgo deseado, normalmente 0.05 o 5%.

248 248 Pasos en la Prueba de Hipótesis 1. Definir el Problema - Problema Práctico 2. Señalar los Objetivos - Problema Estadístico 3. Determinar tipo de datos - Atributo o Variable 4. Si son datos Variables - Prueba de Normalidad

249 249 Pasos en la Prueba de Hipótesis 5. Establecer las Hipótesis - Hipótesis Nula (Ho) - Siempre tiene el signo =,, - Hipótesis Alterna (Ha) – Tiene signos, > o <. El signo de la hipótesis alterna indica el tipo de prueba a usar

250 250 Elementos de una Prueba de Hipótesis Pruebas de Hipótesis de dos colas: Ho: a = b Ha: a b Pruebas de Hipótesis de cola derecha: Ho: a b Ha: a > b Pruebas de Hipótesis cola izquierda: Ho: a b Ha: a < b Z 0 -Z Región de Rechazo Región de Rechazo Z 0 Región de Rechazo Z 0 -Z Región de Rechazo

251 251 Pasos en la Prueba de Hipótesis 6. Seleccionar el nivel de Alfa (normalmente 0.05 o 5%) o el nivel de confianza NC = 1 - alfa 7. Establecer el tamaño de la muestra, >= Desarrollar el Plan de Muestreo 9.Seleccionar Muestras y Obtener Datos 10. Decidir la prueba estadística apropiada y calcular el estadístico de prueba (Z, t, X 2 or F) a partir de los datos.

252 252 Estadísticos para medias, varianzas y proporciones

253 253 Estadísticos para medias, varianzas y proporciones Para el caso de muestras pareadas se calculan las diferencias d individuales como sigue:

254 254 Pasos en la Prueba de Hipótesis 11. Obtener el estadístico correspondiente de tablas o Excel. 12.Determinar la probabilidad de que el estadístico de prueba calculado ocurre al azar. 13.Comparar el estadístico calculado con el de tablas y ver si cae en la región de rechazo o ver si la probabilidad es menor a alfa, rechaze Ho y acepte Ha. En caso contrario no rechaze Ho. 14.Con los resultados interprete una conclusión estadística para la solución práctica.

255 255 Prueba de Hipótesis Pruebas de Hipótesis de dos colas: Ho: a = b Ha: a b Pruebas de Hipótesis de cola derecha: Ho: a b Ha: a > b Pruebas de Hipótesis cola izquierda: Ho: a b Ha: a < b Z 0 -Z Región de Rechazo Región de Rechazo Z 0 Región de Rechazo Z 0 -Z Región de Rechazo Estadístico Calculado con Datos de la muestra

256 256 Prueba de hipótesis para la varianza Las varianzas de la población se ditribuyen de acuerdo a la distribución Chi Cuadrada. Por tanto las inferencias acerca de la varianza poblacional se basarán en este estadístico La distribución Chi Cuadrada se utiliza en: Caso I. Comparación de varianzas cuando la varianza de la población es conocida Caso II. Comparando frecuencias observadas y esperadas de resultados de pruebas cuando no hay una varianza de la población definida (datos por atributos)

257 257 Prueba de hipótesis para la varianza Las pruebas de hipótesis para comparar una varianza poblacional a un cierto valor constante 0, si la población sigue la distribución normal es: Con el estadístico Chi Cuadrada con n-1 grados de libertad

258 258 Prueba de hipótesis para la varianza Ejemplo: ¿El material muestra una variación (sigma) en la resistencia a la tensión menor o igual a 15 psi con 95% de confianza?. En una muestra de 8 piezas se obtuvo una S = 8psi. X^2c =(7)(8)^2/(15)^2 = 1.99 Como La Chi calculada es menor a la Chi de Excel de 2.17 se debe rechazar la hipótesis nula. Si hay decremento en la resistencia 2.17

259 259 Prueba de hipótesis para atributos Ejemplo: Un supervisor quiere evaluar la habilidad de 3 inspectores para detectar radios en el equipaje en un aeropuerto. ¿Hay diferencias significativas para un 95% de confianza? Valores observados O Inspector 1 Inspector 2Inspector 3Total por tratamiento Radios detectados Radios no detectados Total de la muestra 30 90

260 260 Prueba de hipótesis para atributos Ho: p1 = p2 = p3 Ha: p1 p2 p3 Grados de libertad = (No. de columnas -1)*(No. renglones -1) Las frecuencias esperadas son: (Total columna x Total renglón) Valores esperados E Inspector 1 Inspector 2Inspector 3Total por tratamiento Radios detectados Radios no detectados Total de la muestra 30 90

261 261 Prueba de hipótesis para atributos El estadístico Chi Cuadrado en este caso es: El estadístico Chi Cuadrada de alfa = 0.05 para 4 grados de libertad es El estadístico Chi Cuadrada calculada es menor que Chi de alfa, por lo que no se rechaza Ho y las habilidades son similares 5.99

262 262 Para una muestra grande (n>30)probar la hipótesis de una media u 1.) Ho: 2.) Ha: 3.) Calcular el estadístico de prueba 4.) Establecer la región de rechazo Las regiones de rechazo para prueba de 2 colas: -Z Z snsn Z calc = Si el valor del estadístico de prueba cae en la región de rechazo rechazaremos Ho de otra manera no podemos rechazar Ho. 0 -Z Región de Rechazo Región de Rechazo Ejemplo de Prueba de hipótesis para la media

263 263 Prueba de hipótesis de una población para muestras grandes con Z

264 264

265 265 Prueba de hipótesis de una población para muestras pequeñas con t Gl=14;

266 266

267 267 Prueba de hipótesis para una proporción con Z

268 268

269 269 Instrucciones con Minitab para la prueba de hipótesis de una media Stat > Basic Statistics > 1-Sample Z, t Variable -- Indicar la columna de los datos o Summarized Data En caso de requerirse dar el valor de Sigma = dato Proporcionar la Media de la hipótesis Test Mean En Options: Indicar el Confidence Interval -- 90, 95 o 99% Indicar el signo de la hipótesis alterna: Less Than, Not equal, Greater than OK

270 270 Instrucciones con Minitab para la prueba de hipótesis de una proporción Stat > Basic Statistics > 1-Proportion Seleccionar Summarized Data Number of trials = n tamaño de la muestra Number of events = D éxitos encontrados en la muestra En Options: Indicar el Confidence Interval -- 90, 95 o 99% Indicar la Test Proportion Proporción de la hipótesis Indicar el signo de la hipótesis alterna: Less Than, Not equal, Greater than Seleccionar Use test and interval based in normal distribution OK

271 271 Pruebas de hipótesis para comparación de varianzas, medias, y proporciones

272 272 Prueba de Hipótesis Supongamos que tenemos muestras de dos reactores que producen el mismo artículo. Se desea ver si hay diferencia significativa en el rendimiento de Reactor a Reactor. Reactor A Reactor B Estadísticas Descriptivas Variable Reactor N Media Desv.Std Rendimiento A B

273 273 Prueba de Hipótesis Pregunta Práctica: Existe diferencia entre los reactores? Pregunta estadística ¿La media del Reactor B (85.54) es significativamente diferente de la media del Reactor A (84.24)? O, su diferencia se da por casualidad en una variación de día a día. Ho: Hipótesis Estadística: No existe diferencia entre los Reactores Ha: Hipótesis Alterna: L as medias de los Reactores son diferentes. Se busca demostrar que los valores observados al parecer no corresponden al mismo proceso, se trata de rechazar Ho.

274 274 Prueba de Hipótesis Hipótesis Alterna: Cuando las medias de Reactores son diferentes. A esto se le llama Hipótesis Alterna (Ha) Hipótesis Estadística: No existe diferencia entre los Reactores Esto se llama Hipótesis Nula (Ho) Debemos demostrar que los valores que observamos al parecer no corresponden al mismo proceso, que la Ho debe estar equivocada

275 275 ¿Qué representa esto? Reactor A Reactor B A AA AAAA A A B B B B B BB B B B ¿Representan los reactores un proceso básico? ¿Representan los reactores dos procesos diferentes?

276 276 Prueba F de dos varianzas Si se toman dos muestras de dos poblaciones normales con varianzas iguales, la razón de sus varianzas crea una distribución muestral F. Las hipótesis son las siguientes: El estadístico F se muestra a continuación donde S1 se acostumbra tomar como la mayor

277 277 Prueba F de dos varianzas Sea S1 = 900 psi, n1 = 9, s2 = 300 psi, n2 = 7. A un 95% de nivel de confianza se puede concluir que hay menor variación? Ho: Varianza 1 Varianza 2 Grados de libertad para Var1 = 8 y para var 2 = 6 Falfa = F(0.05, 8, 6) = 4.15 Fcalculada = (900^2)/(300^2) = 9 >> Falfa, se rechaza Ho. Hay evidencia suficiente para indicar que la variación ya se ha reducido

278 278 Prueba de hipótesis de dos pob. comparando varianzas con F

279 279

280 280 Prueba de hipótesis de dos pob. Comparando dos medias con Z

281 281

282 282 Prueba de dos medias muestras pequeñas Sigmas descono- cidas e iguales Sigmas desconocidas y desiguales

283 283 Prueba de hipótesis de dos pob. Comparando dos medias con t

284 284

285 285 Prueba de hipótesis de dos pob. Comparando datos pareados con t Grados de libertad = No. de pares - 1

286 286

287 287 Prueba de hipótesis de dos pob. Comparando dos proporciones con Z

288 288

289 289 Robustez Los procedimientos estadísticos se basan en supuestos acerca de su comportamiento teórico. Cuando los estadísticos obtenidos no son afectados por desviaciones moderadas de su expectativa teórica, se dice que son robustos.

290 290 Resumen

291 291 Instrucciones con Minitab para la comparación de dos varianzas Stat > Basic Statistics > 2-variances Seleccionar samples in different columns o Summarized data First-- Indicar la columna de datos de la muestra 1 Second- Indicar la columna de datos de la muestra 2 En Options: Indicar el Confidence Interval -- 90, 95 o 99% OK

292 292 Instrucciones con Minitab para la comparación de dos medias Stat > Basic Statistics > 2-Sample t Seleccionar samples in different columns o Summarized data First-- Indicar la columna de datos de la muestra 1 Second- Indicar la columna de datos de la muestra 2 Seleccionar o no seleccionar Assume equal variances de acuerdo a los resultados de la prueba de igualdad de varianzas En Options: Indicar el Confidence Interval -- 90, 95 o 99% Indicar la diferencia a probar Test Difference (normalmente 0) Indicar el signo de la hipótesis alterna: Less Than, Not equal, Greater than En graphs seleccionar las graficas Boxplot e Individual value plot OK

293 293 Instrucciones con Minitab para la comparación de dos medias pareadas Stat > Basic Statistics > Paired t Seleccionar samples in columns o Summarized data First sample - Indicar la columna de datos de la muestra 1 Second sample - Indicar la columna de datos de la muestra 2 En Options: Indicar el Confidence Interval -- 90, 95 o 99% Indicar la diferencia a probar Test Mean (normalmente 0) Indicar el signo de la hipótesis alterna: Less Than, Not equal, Greater than En graphs seleccionar las graficas Boxplot e Individual value plot OK

294 294 Instrucciones con Minitab para la prueba de hipótesis de dos proporciones Stat > Basic Statistics > 2-Proportions Seleccionar Summarized Data Trials: Events: First: No. de elementos de la 1ª. Muestra y D1 éxitos encontrados Second: No. de elementos de la 2ª. Muestra y D2 éxitos encontrados En Options: Indicar el Confidence Interval -- 90, 95 o 99% Indicar la Test Difference Normalmente 0 Indicar el signo de la hipótesis alterna: Less Than, Not equal, Greater than Seleccionar Use pooled estimate of p for test OK

295 295 VI.B.7 Pruebas de bondad de ajuste

296 296 Bondad de ajuste

297 297 Bondad de ajuste

298 298 Prueba de Bondad de ajuste para la distribución de Poisson 1. Plantear la hipótesis nula y alterna Ho: La población tiene una distribución de prob. De Poisson Ha: Caso contrario 2. Tomar una muestra aleatoria, anotar la frecuencia observada fi y calcular la media de ocurrencias 3. Calcular la frecuencia esperada de ocurrencias ei. Multiplicar el tamaño de muestra con la prob. de Poisson para cada valor de la variable aleatoria. Si hay menos de 5 combinar las categorías 4. Calcular el estadístico de prueba 5. Rechazar Ho si o si p < alfa. Con gl=k-p-1 y alfa nivel de significancia

299 299 Ejemplo: Distribución de Poisson =5 Ho: No. de clientes que llega en intervalos de 5 min. tiene una distribución de Poisson Ha: No se sigue una distribución de Poisson ClientesFrec. observadaf(x) de Poisson128*f(x) cantidad esperada o más

300 300 Ejemplo: Distribución de Poisson =5 Combinando X=0,1 y X=9, 10 o más para que la frecuencia observada sea mayor a 5 y se pueda aplicar la distribución Chi Cuadrada se tiene ClientesFrec. Observada (fi) f(x) de Poisson128*f(x) frecuencia esperada (ei) 0 o o más

301 301 Estadístico y conclusión Con los datos anteriores se calcula el estadístico Chi cuadrada que se compara con Chi Cuadrada de alfa para k-p-1 grados de libertad (K – categorías: 9, p – parámetros a estimar: 1 media). Ho se rechaza si o si p es mayor que alfa. El valor de Chi Cuadrada calculado es de y el valor Chi Cuadrada de alfa 0.05 con 2 gl. Es de no se rechaza Ho En este caso p = 0.14 > 0.05 por tanto no se rechaza Ho y se concluye que los datos siguen una distribución de Poisson

302 302 Prueba de Bondad de ajuste para la distribución Normal 1. Plantear la hipótesis nula y alterna Ho: La población tiene una distribución de prob. Normal Ha: Caso contrario 2. Tomar una muestra aleatoria, calcular la media y la desviación estándar 3. Definir K intervalos de valores de forma que la frecuencia esperada sea 5 cuando menos para cada uno (intervalos de igual probabilidad). Anotar la frecuencia observada de los valores de datos fi, en cada intervalo

303 303 Prueba de Bondad de ajuste para la distribución Normal 4. Calcular el número de ocurrencias esperado ei, para cada intervalo de valores. Multiplicar el tamaño de muestra por la probabilidad de que una variable aleatoria esté en el intervalo. 5. Calcular el estadístico de prueba 6. Rechazar Ho si o si p < alfa. Con gl=k-p-1 y alfa nivel de significancia

304 304 Prueba de Bondad de ajuste para la distribución Normal Ejemplo: datos de calificaciones: Media = 68.42; S = Calificaciones

305 305 Prueba de Bondad de ajuste para la distribución Normal Ho: la población tiene una distribución normal con media y S=10.41 Ha: Caso contrario Para una muestra de 50 con una frecuencia mínima esperada de 5 se tiene el 10% al menos por cada celda La primera celda correspondiente al 10% está en Z = con X = (Media - Z*S) = Para el área del 20%, Z = y X = y así sucesivamente

306 306 Prueba de Bondad de ajuste para la distribución Normal IntervaloFrecuencia observada (fi) Frecuencia esperada (ei) Menos de a a a a a a a a o más65 50 Se registran las frecuencias de los datos tomados de las calificaciones

307 307 Prueba de Bondad de ajuste para la distribución Normal Se determina el estadístico Chi Cuadrado = 7.2 El Valor de Chi Cuadrado de alfa = 0.10 para k – p – 1 grados de libertad. K = 10 categorías, p = 2 parámetros. Gl = 7. Chi Cuadrado es Como no se puede rechazar la hipótesis nula de normalidad de las calificaciones

308 308 Prueba de Bondad de ajuste para la distribución Multinomial 1. Enunciar la hipótesis nula y alternativa Ho: La población sigue una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las K categorías Ha: Caso contrario 2. Tomar una muestra aleatoria y anotar las frecuencias observadas fi para cada categoría 3. Suponiendo que Ho es cierta, determinar la frecuencia esperada ei, en cada categoría multiplicando la probabilidad de la categoría por el tamaño de muestra

309 309 Prueba de Bondad de ajuste para la distribución Multinomial 4. Se determina el estadístico Chi Cuadrado de prueba 5. Regla de rechazo: Si no se puede rechazar la hipótesis nula Rechazar si el valor p es menor a alfa Con alfa nivel de significancia y los grados de libertad son k-1

310 310 Prueba de Bondad de ajuste para la distribución Multinomial Ejemplo: El año pasado la participación de mercado para la empresa A fue del 30%, 50% para la empresa B y 20% para la empresa C. La empresa C hace una prueba con un nuevo producto para estimar su impacto en las preferencias del mercado. Se tomó una muestra de 200 clientes resultando preferencias de compra de: 48 para A, 98 para B y 54 para C. De acuerdo a las probabilidades esperadas, en los 200 clientes las preferencias esperadas son: A=200*0.3=60, B=200*0.5=100, C=200*0.2=40

311 311 Prueba de Bondad de ajuste para la distribución Multinomial Datos para calcular el estadístico de prueba Chi Cuadrado CategoríaProporción hipotética Frecuencia observada Frecuencia esperada Empresa A Empresa B Empresa C

312 312 Prueba de Bondad de ajuste para la distribución Multinomial Chi Cuadrado calculado = 7.34 Chi cuadrado de alfa = 0.05 con k – 1 = 2 grados de libertad = 2 es de El valor p correspondiente es de Como 7.34 es mayor a 5.99 o el valor p de es menor a alfa de 0.05 se rechaza la hipótesis nula Ho y se concluye que el nuevo producto modificará las preferencias del mercado actuales La participación de la empresa C aumenta con el nuevo producto

313 313 Prueba de Bondad de ajuste en Minitab La columna C1 – Observadas contiene las frecuencias observadas y la C2 – esperadas las frecuencias esperadas Calc > Calculator > Store result in variable ChiCuadrada Teclear en el cuadro de expresión sum((Observadas- Esperadas)**2/Esperadas) Calc > Probability distributions > Chi Square Seleccionar Cummulative probability Degrees of freedom 2 Input column ChiCuadrada; Optional Storage CumProb OK Calc > Calculator > Store results in variable p En el cuadro Expression teclear 1-CumProb OK

314 314 Prueba de Bondad de ajuste en Minitab Ejemplo: investigación de mercado ObservadasEsperadasChiCuadradaCumProbp

315 315 Prueba de Bondad de ajuste en Excel Ejemplo: investigación de mercado 1. Calcular el estadístico Chi Cuadrada con =(A2-B2)^2/B2 y Suma Chi cuadrada = El valor P es =distr.chi(7.34, 2) 3. El estadístico Chi Cuadrada de alfa es: =prueba.chi.inv(0.05,2) = Como p es menor a alfa de 0.05 se rechaza la Ho

316 316 VI.B.6 ANOVA para un factor principal y una o más variables de bloqueo

317 317 Introducción Cuando es necesario comparar 2 o más medias poblacionales al mismo tiempo, para lo cual se usa ANOVA. El método ANOVA tiene los siguientes supuestos: La varianza es la misma para todos los tratamientos del factor en todos sus niveles Las mediciones indiviudales dentro de cada tratamiento se distribuyen normalmente El término de error tiene un efecto distribuido normalmente e independiente

318 318 Contenido ANOVA de un factor o dirección ANOVA de un factor y una variable de bloqueo ANOVA de un factor y dos variables de bloqueo – CUADRADO LATINO ANOVA de un factor y tres variables de bloqueo – CUADRADO GRECOLATINO

319 319 ANOVA de un factor o dirección

320 320 Introducción Con el ANOVA las variaciones en la respuesta se dividen en componentes que reflejan los efectos de una o más variables independientes La variabilidad se representa como la suma de cuadrados total que es la suma de cuadrados de las desviaciones de mediciones individuales respecto a la gran media, se divide en: Suma de cuadrados de las medias de los tratamientos Suma de cuadrados del residuo o error experimental

321 321 ANOVA – Prueba de hipótesis para probar la igualdad de medias de varias poblaciones para un factor Se trata de probar si el efecto de un factor o Tratamiento en la respuesta de un proceso o sistema es Significativo, al realizar experimentos variando Los niveles de ese factor (Temp. 1, Temp. 2, Temp.3, etc.)

322 322 ANOVA - Condiciones Todas las poblaciones son normales Todas las poblaciones tiene la misma varianza Los errores son independientes con distribución normal de media cero La varianza se mantiene constante para todos los niveles del factor

323 323 ANOVA – Ejemplo de datos Niveles del Factor Peso % de algodón y Resistencia de tela

324 324 ANOVA – Suma de cuadrados total Xij Gran media

325 325 ANOVA – Suma de cuadrados de renglones (a)-tratamientos Gran media Media Trat. 1 Media Trat. a Media trat. 2 a renglones

326 326 ANOVA – Suma de cuadrados del error Media X1. X1j X3j X2j Media X2. Media X3. Muestra 1 Muestra 2 Muestra 3

327 327 ANOVA – Suma de cuadrados del error Media X1. X1j X3j X2j Media X2. Media X3. Muestra 1 Muestra 2 Muestra 3

328 328 ANOVA – Grados de libertad: Totales, Tratamientos, Error

329 329 ANOVA – Cuadrados medios: Total, Tratamiento y Error

330 330 ANOVA – Cálculo del estadístico Fc y Fexcel

331 331 Tabla final de ANOVA

332 332 ANOVA – Toma de decisión Fexcel Fc Alfa Zona de rechazo De Ho o aceptar Ha Zona de no rechazo de Ho O de no aceptar Ha Distribución F

333 333 ANOVA – Toma de decisión Si Fc es mayor que Fexcel se rechaza Ho Aceptando Ha donde las medias son diferentes O si el valor de p correspondiente a Fc es menor de Alfa se rechaza Ho

334 334 ANOVA – Identificar las medias diferentes por Prueba de Tukey T Para diseños balanceado (mismo número de columnas en los tratamientos) el valor de q se determina por medio de la tabla en el libro de texto

335 335 ANOVA – Identificar las medias diferentes por Prueba de Tukey T Se calcula la diferencia Di entre cada par de Medias Xis: D1 = X1 – X2 D2 = X1 – X3 D3 = X2 – X3 etc. Cada una de las diferencias Di se comparan con el valor de T, si lo exceden entonces la diferencia es Significativa de otra forma se considera que las medias Son iguales

336 336 ANOVA – Identificar las medias diferentes por Prueba de Diferencia Mínima Significativa DMS Para diseños balanceados (los tratamientos tienen igual no. De columnas), se calcula un factor DMS contra el que se comparan las diferencias Xi – Xi. Significativas si lo exceden

337 337 Prueba DMS para Diseños no balanceados Para diseños no balanceados (los tratamientos tienen diferente no. De columnas), se calcula un factor DMS Para cada una de las diferencias Xi – Xi

338 338 Ejemplo: Considerar un experimento de un factor (máquina) con tres niveles (máquinas A, B, C). Los datos se muestran a continuación y debe verificarse si existe diferencia significativa a un alfa = 0.05 MáquinasDatos Su ma Prom.

339 339 Ejemplo: Como el valor calculado de F(33.2) excede el valor crítico de F, se rechaza la Hipótesis nula Ho La tabla completa de ANOVA es la siguientes: Fuentes De variación Máquinas Cuadrado medio

340 340 Ejemplo: Con Minitab: Stat>ANOVA>One way unstacked Responses (in separate columns) A B C Interpretar los resultados ABC

341 341 Ejemplo: One-way ANOVA: A, B, C Source DF SS MS F P Factor Rechazo Ho Error Total S = R-Sq = 84.69% R-Sq(adj) = 82.14% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev A (-----*----) B (----*-----) C (-----*----) Pooled StDev = 1.438

342 342 Corrida en Minitab Se introducen las respuestas en una columna C1 Se introducen los subíndices de los renglones en una columna C2 DurabilityCarpet

343 343 Corrida en Minitab Opción: stat>ANOVA – One Way (usar archivo Exh_aov) En Response indicar la col. De Respuesta (Durability) En factors indicar la columna de subíndices (carpet) En comparisons (Tukey) Pedir gráfica de Box Plot of data y residuales Normal Plot y vs fits y orden Si los datos estan en columnas pedir ANOVA – One Way (unstacked)

344 344 Resultados Results for: Exh_aov.MTW One-way ANOVA: Durability versus Carpet Analysis of Variance for Durabili Source DF SS MS F P Carpet Error Total Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ( * ) ( * ) ( * ) ( * ) Pooled StDev = Tukey's pairwise comparisons Family error rate = Individual error rate = Critical value = 4.20

345 345 ANOVA de dos vías un factor principal y una variable de bloqueo

346 346 ANOVA de 2 vías Este es un procedimiento extensión de los patrones del ANOVA de una vía con tres fuentes de variación: Tratamiento del factor A (columnas), Tratamiento del factor B (renglones) y Error experimental.

347 347 ANOVA – Prueba de hipótesis para probar la igualdad de medias de varias poblaciones con dos vías Se trata de probar si el efecto de un factor o Tratamiento en la respuesta de un proceso o sistema es Significativo, al realizar experimentos variando Los niveles de ese factor (Temp.1, Temp.2, etc.) POR RENGLON Y Considerando los niveles de otro factor que se piensa Que tiene influencia en la prueba – FACTOR DE BLOQUEO POR COLUMNA

348 348 ANOVA – 2 vías Para el tratamiento – en renglones Para el factor de bloqueo – en columnas

349 349 ANOVA 2 vías - Ejemplo

350 350 ANOVA – Dos vías o direcciones La SCT y SCTr (renlgones) se determina de la misma forma que para la ANOVA de una dirección o factor En forma adicional se determina la suma de cuadrados del factor de bloqueo (columnas) de forma similar a la de los renglones La SCE = SCT – SCTr - SCBl

351 351 ANOVA de 2 vías

352 352 ANOVA de 2 vías

353 353 ANOVA –Estadístico Fc y Fexcel

354 354 ANOVA – Estadístico Fb

355 355 Tabla final ANOVA 2 vías

356 356 ANOVA – 2 vías: Toma de decisión Fexcel Fc Tr o Bl Alfa Zona de rechazo De Ho o aceptar Ha Zona de no rechazo de Ho O de no aceptar Ha Distribución F

357 357 ANOVA – 2 vías: Toma de decisión Si Fc (Tr o Bl) es mayor que Fexcel se rechaza Ho Aceptando Ha donde las medias son diferentes O si el valor de p correspondiente a Fc (Tr o Bl) es menor de Alfa se rechaza Ho

358 358 Cálculo de los residuales Y estimada Error o residuo Error estándar Factor de comparación Si la diferencia de medias excede a Rk es significativa

359 359 Adecuación del modelo Los residuales deben seguir una recta en la gráfica normal Deben mostrar patrones aleatorios en las gráficas de los residuos contra el orden de las Yij, contra los valores estimados y contra los valores reales Yij

360 360 Corrida en Minitab Se introducen las respuestas en una columna C3 y los subíndices de renglones en columna C4 y de columnas en C5 PlantasSuplementoLago 341Rose 431Rose 571Dennison 401Dennison 852Rose 682Rose 672Dennison 532Dennison 413Rose 243Rose 423Dennison 523Dennison

361 361 Corrida en Minitab Opción: stat>ANOVA – Two Way (usar archivo Exh_aov) En Response indicar la col. De Respuesta (Plantas) En Row factor y Column Factor indicar las columnas de subíndices de renglones y columnas (suplemento y lago) y Display Means para ambos casos Pedir gráfica residuales Normal Plot y vs fits y orden

362 362 Resultados Two-way ANOVA: Zooplankton versus Supplement, Lake Analysis of Variance for Zooplank Source DF SS MS F P Suppleme Lake Interaction Error Total Individual 95% CI Suppleme Mean ( * ) ( * ) ( * ) Individual 95% CI Lake Mean Dennison 51.8 ( * ) Rose 49.2 ( * )

363 363 ANOVA de un factor y dos o tres variables de bloqueo CUADRADO LATINO Y GRECOLATINO

364 364 ANOVA – 3 y 4 factores El diseño de Cuadrado latino utiliza dos factores de bloqueo adicionales al de Tratamiento EL diseño de Cuadrado Grecolatino utiliza tres factores adicionales al del Tratamiento El cálculo de suma de cuadrados para renglones y para columnas es similar al de ANOVA de un factor principal y otro de bloqueo

365 365 Cuadrado Latino

366 366 ANOVA – Cuadrado Latino: Factor principal (A,B,C,D)

367 367 ANOVA – Cuadrado Latino: Cálculo del error

368 368 ANOVA – Cálculo del estadístico Fc y Fexcel

369 369 ANOVA – Cuadrado Latino Reng / Col

370 370 Tabla final ANOVA 2 Factores

371 371 Cuadrado latino en Minitab Se introducen las respuestas en una columna C1 Se introducen los subíndices de los renglones en una columna C2 Se introducen los subíndices de las columnas en una columna C3 Se introducen las letras mayúsculas que indican el nivel del factor (A, B, C, D, etc.) correspondientes a cada respuesta en la columna C4

372 372 Cuadrado latino en Minitab Opción: stat> ANOVA – General linear model En Response indicar la col. De Respuesta, En Model indicar las columnas de los factores y En Random factors indicar los factores adicionales al del efecto principal a probar (A, B, C, D). Se pueden pedir interacciones entre factores x – y con Cx*Cy Pedir gráfica de residuales Normal y vs fits y orden

373 373 Cuadrado Greco Latino

374 374 Cuadrado Greco latino en Minitab Se introducen las respuestas en una columna C1 Se introducen los subíndices de los renglones en una columna C2 Se introducen los subíndices de las columnas en una columna C3 Introducir los subíndices del factor adicional de letras griegas con letras latinas minúsculas (a,b,c,d,e) en C4 Se introducen las letras mayúsculas que indican el nivel del factor (A, B, C, D, etc.) correspondientes a cada respuesta en la columna C5

375 375 Cuadrado Greco latino en Minitab Opción: ANOVA – General linear model En Response indicar la col. De Respuesta, En Model indicar las columnas de los factores y En Random factors indicar los factores adicionales al del efecto principal a probar (A, B, C, D). También se pueden indicar interacciones entre factores x-y con Cx * Cy Pedir gráfica de residuales Normal y vs fits y orden

376 376 ANOVA – Cuadrado Grecolatino

377 377 ANOVA de 2 factores – Suma de cuadrados, gl. y Cuadrado medio para el error

378 378 ANOVA – Cálculo del estadístico Fc y Fexcel

379 379 ANOVA – Cuadrado Grecolatino

380 380 Tabla final ANOVA 2 Factores

381 381 ANOVA para diseño factorial AxB En un experimento factorial involucrando el factor A con (a) niveles y un factor B con (b) niveles, la suma de cuadrados se puede dividir en: SST = SS(A) + SS(B) + SS(AB) + SSE

382 382 VI.B.8 Tablas de contingencia Prueba Chi 2 ( 2)

383 383 ¿Para qué se utiliza? 1. Para probar si una serie de datos observada, concuerda con el modelo (serie esperada) de la información. 2. Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia). 2 Ho: No hay diferencia Ha: Hay diferencia Para todos los casos,

384 384 H o : La moneda es buena H a : La moneda está cargada Se lanza una moneda al aire 100 veces y que obtenemos 63 águilas y 37 soles. ¿La proporción de águilas y soles sucede por casualidad? O, se concluye que la moneda está cargada? Ejemplo 1: Chi Cuadrada( 2 )

385 385 2 c= j = 1 g Estadístico Chi Cuadrada ObservadaEsperada Aguilas Soles = = 6.76 (f o - f e ) 2 fefe ( f o ) ( f e ) Ejemplo 1: Chi Cuadrada( 2 ) fefe (f o - f e ) 2

386 386 Función de Distribución Acumulada Chi 2 con 1 grado de libertad (d.f) H o : La moneda es buena. H a : La moneda está cargada. Para un 95% de confianza antes de concluir que la moneda está cargada, se requiere que X 2 c > X 2 Crítica o que el valor de p sea Como p 0.05, se puede concluir -con un 95% de confianza - que la moneda está cargada. 2 c P( 2 c > x) p = = De tablas X 2 Crítica, (0.05, 1) = Ejemplo 1: Chi cuadrada

387 Posicionarse en una celda vacía 2. Accesar el menú de funciones con Fx 3. Seleccionar STATISTICAL o ESTADÍSTICAS, CHIINV. 4. Dar valores de probabilidad (0.05) y grados de libertad, normalmente (n - 1) para un parámetro o (# de renglones -1) * (# de columnas - 1) para el caso de tablas de proporciones. Cálculo en Excel del estadístico Chi cuadrada

388 388 Tabla de Valores Críticos Seleccionados de Chi 2

389 389 Tabla de contingencia Una tabla de clasificación de dos vías (filas y columnas) que contiene frecuencias originales, se puede analizar para determinar si las dos variables (clasificaciones) son independientes o tienen una asociación significativa. La prueba Chi Cuadrada probará si hay dependencia entre las dos clasificaciones. Además se puede calcular el coeficiente de contingencia (correlación) que en todo caso muestra la fuerza de la dependencia

390 390 Tabla de contingencia Para esta prueba se usa la prueba Chi Cuadrada donde: Entre mayor sea su valor, mayor será la diferencia de la discrepancia entre frecuencias observadas y teóricas. Esta prueba es similar a la de bondad de ajuste.

391 391 Tabla de contingencia Ejemplo: Cada una de las 15 celdas hace una contribución al estadístico Chi Cuadrado (una celda) Asumiendo Alfa = 0.1 y Gl= (reng – 1)*(Col – 1) = 4*2 = 8 Chi- Cuadrado de alfa = Como Chi Cuadrada calculada >> Chi C. Alfa, se rechaza Ho de igualdad de resultados entre negocios

392 392 Los valores observados (f o ) son los siguientes: Ho: No existen diferencias en los índices de defectos de las dos máquinas. Ha: Existen diferencias en los índices de defectos de las dos máquinas. Total El índice de defectos totales es 28 / 779 = 3.6% máquina 1 f o = 517 f o = 17 Total = 534 Partes buenas máquina 2 f o = 234 f o = 11 Total = Partes defectuosas Ejemplo 2: Chi 2 Para comparación de dos grupos; ¿son las mismas proporciones?)

393 393 Cálculo de los valores esperados Basados en este índice, los valores esperados (f e ) serían: máquina 1 f o = 751*534/779 f o = 28*534/779 Total = 534 Partes buenas máquina 2 f o = 751*245/779 f o = 28*245/779 Total = Partes defectuosas máquina Partes buenas máquina Partes defectuosas Ejemplo 2: Chi 2 Para comparación de dos grupos; ¿son las mismas proporciones?)

394 394 Nota: Chi cuadrada no podrá aplicarse en los casos donde los conteos seas menores a 5 en 20% de celdas. Si cualquiera de los conteos esperados en las celdas es menor a uno, no deberá usarse Chi 2. Si algunas celdas tienen un conteo menor a los esperados, ya sea combinando u omitiendo renglones y/o columnas, las categorías pueden ser de utilidad. Prueba de chi cuadrada: Los conteos esperados están debajo de los conteos observados Partes buenas Partes Defectuosas Total Total Chi 2 = = DF= 1; valor de p = celdas con conteos esperados menores a 5.0

395 395 Tabla de Chi 2 Tabla de valores críticos seleccionados para Chi 2

396 396 Problema: Fugas Beneficios Potenciales: $10,000 de ahorro en retrabajos, y en la reducción de tiempo de ciclo. Variación en familias a probar Operador a operador H o : No existe diferencia en los índices de defecto de los diferentes operadores H a : Existe diferencia en los índices de defecto de los diferentes operadores Máquina a máquina H o : No existe diferencia en los índices de defecto de las diferentes máquinas H a : Existe diferencia en los índices de defecto de las diferentes máquinas Tamaño de la muestra: total de oportunidades (172 piezas)

397 397 Los conteos esperados están colocados debajo de los conteos observados Con fugasSin fugas Total Total Chi 2 = = DF= (4-1)(2-1) = 3; valor P = Prueba de chi 2 (máquina a máquina)

398 398 Los conteos esperados están colocados debajo de los conteos observados. Con gotera Sin gotera Total Total Chi 2 = = DF= 5; valor P = Prueba de chi 2 (operador a operador)

399 399 ¿Qué sucede si los grupos múltiples de variación son estadísticamente significativos? (en este caso, operador a operador y máquina a máquina) Se utiliza un procedimiento denominado Coeficiente de Contingencia como clave para determinar qué grupo de variación debe investigarse primero. Coeficiente de Contingencia x 100 Chi Cuadrada N Chi 2 N CC Máquina Operador Controlador Mayor SI el tamaño de la muestra (N), es similar para los grupos. Al dividir entre N, probablemente, llevará a la misma ruta que hubiera alcanzado con sólo ver la estadística Chi 2. Sin embargo, si N tiene una variación considerable, dependiendo del grupo de variación que se investiga, el coeficiente de contingencia puede ser una herramienta valiosa para determinar la prioridad sobre qué grupo debe investigarse primero.

400 400 Con gotera Sin goteraTotal Mucho peor que lo esperado Mucho mejor que lo esperado Ahora que la información nos ha llevado a investigar a los grupos de operador a operador. ¿Qué debemos hacer ahora? Encontremos cuál de los operadores estaban fuera del estándar. ¿Era alguno de ellos notablemente peor (o mejor) que el resto? (Estos mismos operadores fueron quienes tuvieron los números más grandes de chi 2 ) ¿Qué sucede si los grupos múltiples de variación son estadísticamente significativos? (en este caso, operador a operador y máquina a máquina)

401 401 Operador a operador: = Rechace H o y acepte H a (Existe una diferencia significativa entre los operadores) Los operadores 4 y 5 están fuera del estándar: El operador 4 es notablemente peor que el resto, El operador 5 es notablemente mejor que los demás ¿Cuál es el próximo paso? Hable con todos los operadores para averiguar qué diferencias pueden existen en sus técnicas. El operador 4 no tenía experiencia en este tipo de trabajo y apenas se estaba acostumbrado a soldar este producto en particular. El operador 5 encontró un modo de mejor de hacer el ensamble, con lo cual consiguió mejorar el trabajo de soldadura, aunque esto mostraba un grado de dificultad ergonómica. Se añadió un colocador para ensamblar la parte en forma segura. (Esto también redujo el tiempo que requerían los operadores para acostumbrarse a trabajar en esta forma)

402 402 Ejercicios 1. Se quiere evaluar la habilidad de tres inspectores de rayos X en un aeropuerto para detectar artículos clave. Como prueba se pusieron radios de transistores en 90 maletas, cada inspector fue expuesto a 30 maletas conteniendo radios mezcladas entre otras que nos los contenían. Los resultados se resumen a continuación: Inspectores 123 Radios detectados Radios no detectados358 ¿Con un 95% de confianza, existe una diferencia entre los inspectores? Ho: p1 = p2 = p3; Ha: al menos una es diferente Grados de libertad = (columnas - 1) ( filas -1)

403 403 Ejercicios 1. Se quiere evaluar si hay preferencia por manejar en un carril de una autopista dependiendo de la hora del día. Los datos se resumen a continuación: Hora del día Carril1:003:005:00 Izquierdo Central Derecho81330 ¿Con un 95% de confianza, existe una diferencia entre las preferencias de los automovilistas dependiendo de la hora? Ho: P1 = P2 = P3; Ha: al menos una es diferente Grados de libertad = (columnas - 1) ( filas -1)

404 404 Coeficiente de Contingencia Coeficiente de contingencia es el grado de relación o dependencia de las clasificaciones en la tabla de contingencias es: Donde N es la frecuencia total y X es el estadístico Chi Cuadrado calculado

405 405 Coeficiente de Contingencia Para los datos del ejemplo anterior se tiene: El valor máximo de C se obtiene de:

406 406 Correlación de atributos Para tablas de orden k * k, el coeficiente de correlación, r, es : Donde 0<= r <= 1

407 407 VI.B.9 Pruebas de Hipótesis no paramétricas

408 408 Pruebas no paramétricas Las pruebas paramétricas asumen una distribución para la población, tal como la Normal Las pruebas no paramétricas no asumen una distribución específica de la población Bajo los mismos tamaños de muestra la Potencia o probabilidad de rechazar Ho cuando es falsa es mayor en las pruebas paramétricas que en las no paramétricas Una ventaja de las pruebas no paramétricas es que los resultados de la prueba son más robustos contra violación de los supuestos

409 409 Prueba de Hipótesis Variable Atributo Tablas de Contingencia de Correlación No Normal Normal Varianza Medianas Variancia Medias Prueba-F Homogeneidad de la Variación de Levene Homogeneidad de la Variación de Bartlett Correlación Prueba de signos Wilcoxon Mann- Whitney Kurskal- Wallis Prueba de Mood Friedman Pruebas de t ANOVA Correlación Regresión Muestra-1 Muestra-2 Una vía Dos vías Residuos distribuidos normalmente

410 410 Pruebas de Varianzas Homogeneidad de la varianza de Levene : Compara dos o más varianzas de muestras de la misma población. Pruebas de Variancias X 2 : Compara la variancia de una muestra con una variancia de un universo conocido. Prueba F : Compara dos varianzas de muestras. Homogeneidad de la variancia de Bartlett : Compara dos o más varianzas muestras de la misma población. Datos NormalesDatos No Normales Resumen de pruebas de Hipótesis

411 411 Pruebas de la Mediana Prueba de signos o Prueba Wilcoxon : Prueba si la mediana de la muestra es igual a un valor conocido o a un valor a alcanzar. Prueba Mann-Whitney : Prueba si dos medianas de muestras son iguales. Prueba Kruskal-Wallis : Prueba si más de dos medianas de muestras son iguales. Asume que todas las distribuciones tienen la misma forma. Prueba de la mediana de Mood : Otra prueba para más de dos medianas. Prueba más firme para los valores atípicos contenidos en la información. Prueba Friedman : Prueba si las medianas de las muestras, clasificadas bajo dos categorías, son iguales. Correlación : Prueba la relación lineal entre dos variables. Pruebas de los Promedios Prueba t de 1 muestra : Prueba si el promedio de la muestra es igual a un promedio conocido o meta conocida. Prueba t de 2 muestras : Prueba si los dos promedios de las muestras son iguales. ANOVA de un factor: Prueba si más de dos promedios de las muestras son iguales. ANOVA de dos factores : Prueba si los promedios de las muestras clasificadas bajo dos categorías, son iguales. Correlación : Prueba la relación lineal entre dos variables. Regresión : Define la relación lineal entre una variable dependiente y una independiente. (Aquí la "normalidad" se aplica al valor residual de la regresión) Datos NormalesDatos No Normales Resumen de pruebas de Hipótesis

412 412 Revise y asegúrese de que los datos no siguen una distribución normal. Desarrollar una Prueba de normalidad (para verificar realmente lo anormal. Para la prueba de Bartlet el valor de p debe ser < 0.05) Desarrollar una Prueba de Corridas (para verificar que no existen sucesos no aleatorios que puedan haber distorsionado la información) Revisar la información para detectar errores (tipográficos, etc.). Investiguar los valores atípicos. Una muestra pequeña (n < 30) proveniente de un universo normal, se mostrará algunas veces como anormal. Intentar transformar los datos. Las transformaciones comunes incluyen: - Raíz cuadrada de todos los datos - Logaritmo de todos los datos - Cuadrado de todos los datos Si la información es todavía anormal, entonces usar las herramientas no paramétricas. Acciones a tomar con datos No Normales

413 413 Promedio : Es la media aritmética de la información. Es la suma de todos los datos, dividida entre el número de datos de referencia. Mediana: Valor del punto medio de los datos, cuando se ordenan en forma ascendente (en caso de datos pares, obtener promedio). Moda : Valor que se repite con más frecuencia sobre el conjunto de datos. Ejemplo: Se cuestionó a veinte personas sobre cuánto tiempo les tomaba estar listas para ir a trabajar, en las mañanas. Sus respuestas (en minutos) se muestran más adelante. ¿Cuáles son el promedio y la mediana para esta muestra? 30, 37, 25, 35, 42, 35, 35, 47, 45, 60 39, 45, 30, 38, 35, 40, 44, 55, 47, 43 7B8. Definiciones

414 414 Un dibujo dice más que mil palabras El promedio puede estar influenciado considerablemente por los valores atípicos porque, cuando se calcula un promedio, se incluyen los valores reales de estos valores. La mediana, por otra parte, asigna la misma importancia a todas las observaciones, independientemente de los valores reales de los valores atípicos, ya que es la que sencuentra en la posición media de los valores ordenados. Promedio = Mediana = C1 Promedio Mediana

415 415 Pruebas Alternativas comúnmente usadas Pruebas para datos No normales Prueba de Corridas : Calcula la probabilidad de que un X número de puntos de referencia, esté por encima o por debajo del promedio aleatoriamente. Prueba de signos, de 1 muestra : Prueba la probabilidad de que la mediana de la muestra, sea igual al valor hipotético. Prueba Mann-Whitney : Comprueba el rango de dos muestras, por la diferencia entre dos medianas del universo. Prueba de la Mediana de Mood : Prueba para más de dos medianas del universo. Más robusta para los valores atípicos o para los errores en la información. Analogía con datos normales Prueba de Corridas (la misma prueba para ambos tipos de información) Prueba t de una muestra Prueba t de 2 muestras ANOVA de un factor

416 Considere los siguientes datos (que se muestran aquí en orden cronológico): 325, 210, 400, 72, 150, 145, 110, 507, 56, 120, 99, 144, 110, 110, 320, 290, 101, 0, 80, 500, 201, 50, 140, 80, 220, 180, 240, 309, 80 Es importante tener los datos registrados en orden cronológico. Una representación gráfica de los datos se asemeja a esto: Promedio Primera "corrida " Segunda racha" Número total de Rachas: 12 Número total de puntos > al promedio: 11 Número total de puntos < al promedio: 18 Racha: Un punto o una serie consecutiva de puntos que caen en un lado del promedio. Prueba de Rachas

417 Promedio K = Número de rachas observado = 12 Número de rachas esperado = => No se rechaza Ho 11 observaciones por encima de K; 18 por debajo La prueba es significativa en p= No se puede rechazar Ho con valor alfa = 0.05 Este es el valor p de las Prueba de Corridas Prueba de Rachas H o : Los datos son aleatorios H a :Los datos NO so aleatorios Ya que p > 0.05, no podemos rechazar la hipótesis nula. Los datos son aceptados, siendo aleatorios. Promedio

418 418 Cálculos de la Prueba de Rachas El estadístico Z cuando n > 20 se calcula como: Z = (G - MediaG) / DesvStG Con MediaG = 1 + (2n1*n2) / (n1 + n2) DesvStG = Raiz [ (2n1*n2) (2n1*n2 - n1 -n2) / (n1 + n2)^2* (n1+n2 -1) Del ejemplo anterior G = 12;n1 = 11n2 = 18 MediaG = DesStG = Z1 = ( ) / = P(Z1) = y para dos colas se tiene P(Z1) + P(Z2) = > Alfa crítico de 0.05, no rechazándose Ho Si las n1 y n2 son menores a 21, entonces se consulta la tabla de valores críticos para el número de Rachas G

419 419 Corrida con Minitab Stat > Nonparametrics > Runs Test Variable C1, Above and below the mean P > 0.05 No rechazar Ho Runs Test: C1 Runs test for C1 Runs above and below K = The observed number of runs = 12 The expected number of runs = observations above K, 18 below P-value = 0.285

420 420 Prueba de Signos de la Mediana H o : La mediana de la muestra es igual a la mediana de la hipótesis H a : Las medianas son diferentes Ejemplo (usando los datos del ejemplo anterior): Ho: Valor de la mediana = Ha: Valor de la mediana diferente de N DEBAJO IGUAL ENCIMA VALOR P MEDIANA Ya que p >0.05, no se puede rechazar la hipótesis nula. No se puede probar que la mediana real y la mediana hipotética son diferentes. En las páginas siguientes se muestra el detalle del cálculo.

421 421 Cálculos de la Prueba de Signos de la Mediana Ejemplo: Con los datos del ejemplo anterior y ordenándo de menor a mayor se tiene: n = 29, Mediana de Ho = 115 No.ValorSignoNo.ValorSignoNo.Valor Signo Con la mediana en 144. Si el valor contra el cual se desea probar es 115, entonces hay 12 valores por debajo de el (-) y 17 valores por arriba (+).

422 422 Cálculos de la Prueba de Signos de la Mediana El estadístico X es el el número de veces que ocurre el signo menos frecuente, en este caso el 12 (-). Cómo n 25, se calcula el estadístico Z para la prueba de signos con: Z = [ (Y + 0.5) - (0.5*n) ]/ 0.5 n En este caso Z1 = y P(Z1) = para la cola izquierda en forma similar P(Z2) para la cola derecha, por lo que la probabilidad total es >> 0.05 del criterio de rechazo. Si n hubiera sido < 25 entonces se hubiera consultado la tabla de valores críticos para la prueba de signo.

423 423 Prueba de Signos de la Mediana Bueno, veamos una gráfica de la información ¿Es esto correcto?¿144 podría ser igual a 115? Después de todo, tal vez esto SEA lo correcto.

424 424 Corrida en Minitab Stat > Nonparametrics > 1-Sample sign Variable C1 Confidence interval 95% Test Median 115 Alternative Not equal Como P > 0.05 no se rechaza Ho y la mediana es 115 Sign Test for Median: Signos Sign test of median = versus not = N Below Equal Above P Median Signos

425 425 Prueba de Signos de la Mediana Para observaciones pareadas Calificaciones de amas de casa a dos limpiadores de ventanas: Ho: p = 0.5 no hay preferencia de A sobre B Ha: p<>0.5 AmaLimpiador B CasaA ¿Hay evidencia que indique cierta preferencia de las amas de casa por lo limpiadores?

426 426 Prueba de Signos de la Mediana Producto B FamiliaA ¿Hay evidencia que indique cierta preferencia por un Producto A o B? Media = 0.5*n Desv. Estand.= 0.5*raiz(n) Zc = (Y – media) / Desv. Estánd. Rechazar Ho si Zc >

427 427 Prueba de Signos de la Mediana Como Zc < Zexcel no se rechaza Ho o Como p value = > No hay evidencia suficiente de que los Consumidores prefieran al producto B Media = 0.5*11 = 5.5 Desv. Estand.= 0.5*raiz(n) = 1.67 Para Zc = (8 – 5.5) / 1.67 = Zexcel = 1.96 para alfa/2 = 0.025

428 428 Prueba rango con signo de Wilconox Es la alternativa no paramétrica de la prueba paramétrica de muestras pareadas Ejemplo: HO: Las poblaciones son idénticas Ha: Caso contrario Trabaja dor Método 1 Método 2 Diferen cias Abs(difere n.)Rango Rango c/signo Eliminar T = 44

429 429 Prueba rango con signo de Wilconox Distribución muestral T para poblaciones idénticas Se aproxima a la distribución normal para n >= 10 En este caso n = pares eliminando las que son iguales con dif. = 0 para el trabajador 8. = raiz(10 x 11 x 21/6) = Z = (T – )/ = 44/19.62 = 2.24 Z alfa/2 = Z0.025 = 1.96 Como Zc = 2.24 > Z0.025 se rechaza Ho, los métodos son diferentes

430 430 Prueba en Minitab para prueba de mediana con Wilconox File> Open worksheet > Exh_Stat Stat > Nonparametrics > 1-Sample Wilconox Variables C1 Test Median 77 Altenative Not equal Achievement Wilcoxon Signed Rank Test: Achievement Test of median = versus median not = for Wilcoxon Estimated N Test Statistic P Median Achievement Ho: Mediana = 77 Ha: Mediana <> 77 Como P de >> alfa de 0.05 no se rechaza Ho

431 431 Prueba de Mann-Whitney Se llevó a cabo un estudio que analiza la frecuencia del pulso en dos grupos de personas de edades diferentes, después de diez minutos de ejercicios aeróbicos. Los datos resultantes se muestran a continuación. Edad C Edad C ¿Tuvieron diferencias significativas las frecuencias de pulso de ambos grupos?

432 432 Prueba de Mann-Whitney Ordenando los datos y asignándoles el (rango) de su posición relativa se tiene (promediando posiciones para el caso de que sean iguales): Edad C1 (7) 135 (8.5) 136 (11) 140 (13.5) 144 (15) 148 (16) 150 (17) 154 (18) 160 n1 = 10 Ta = Edad C2 (1) 124 (2) 126 (3.5) 128 (5) 130 (6) 132 (8.5) 136 (11)140 (15)166 n2 = 9 Tb = 55.5

433 433 Prueba de Mann-Whitney Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales Ha: Las distribuciones de frecuencias relativas poblacionales no son idénticas Ho: 1 = 2Ha: 1 2 1, 2 = Medianas de las poblaciones Ordenando los datos y asignándoles su posición relativa se tiene: Ua = n1*n2 + (n1) * (n1 + 1) /2 - Ta Ub = n1*n2 + (n2) * (n2 + 1) /2 - Tb Ua + Ub = n1 * n2 Ua = = 14.5 P(Ua) = Ub = = 79.5 El menor de los dos es Ua. Para alfa = 0.05 el valor de Uo = 25 Como Ua < 25 se rechaza la Hipótesis Ho de que las medianas son iguales. Dado que p < 0.05, rechazamos la hipótesis nula. Estadísticamente existe una diferencia significativa entre los dos grupos de edad.

434 434 Prueba de Mann-Whitney Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales Ha: Las distribuciones de frecuencias relativas poblacionales no son idénticas Ua = 14.5 Ub = 79.5 Utilizando el estadístico Z y la distribución normal se tiene: Z = [ (U - (n1* n2 / 2 ) / Raiz (n1 * n2 * (n1 + n2 + 1) / 12) Con Ua y Ub se tiene: Za = ( ) / = P(Z) = similar a la anterior Zb = ( ) / = 2.81P(total) = 2 * = menor = 0.05 El valor crítico de Z para alfa por ser prueba de dos colas, es Como Za > Zcrítico se rechaza la Hipótesis Ho de que las medianas son iguales. Dado que p < 0.05, rechazamos la hipótesis nula. Estadísticamente existe una diferencia significativa entre los dos grupos de edad.

435 Prueba de Mann-Whitney años de edad años de edad Diferencias entre los encabezados de los renglones y las columnas De esta manera, se calcula la mediana de todas estas diferencias, denominada "punto estimado". Este punto estimado es una aproximación de la diferencia entre las medianas de los dos grupos (ETA1 y ETA2). Una vez ajustados los "enlaces" (eventos de un mismo valor en ambos grupos de información), Minitab usa este punto estimado para calcular el valor p.

436 436 Corrida en Minitab Stat > Nonparametrics > Mann Whitney First Sample C1 Second Sample C2 Conf. Level 95% Alternative Not equal Mann-Whitney Test and CI: C1, C2 N Median P>0.05 C Se rechaza Ho C Point estimate for ETA1-ETA2 is Percent CI for ETA1-ETA2 is (4.01,20.00) W = Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at The test is significant at (adjusted for ties)

437 437 Prueba de Kruskal Wallis Ordenando los datos de ventas y asignándoles el (rango) de su posición relativa se tiene (promediando posiciones para el caso de que sean iguales): Zona 1 (15.5) 147 (17.5) 17.5 (9) 128 (19) 162 (12) 135 (10) 132 (22) 181 (13) 138 n1 = 8 Ta = 118 Zona 2 (17.5) 160 (14) 140 (21) 173 (4) 113 (1) 85 (7) 120 (25) 285 (5) 117 (11) 133 (6) 119 n2 = 10 Tb = Zona 3 (24) 215 (8) 127 (2) 98 (15.5) 127 (23) 184 (3) 109 (20) 169 n3 = 7 Tc = 95.5 N = n1 + n2 + n3 = 25

438 438 Prueba de Kruskal Wallis Ho: Las poblaciones A, B y C son iguales Ha: Las poblaciones no son iguales Ho: 1 = 2 = 3 Ha: 1 2 3; 1, 2, 3 = Medianas de las poblaciones Calculando el valor del estadístico H se tiene: H = [ 12 /( N* ( N + 1)) ] * [ Ta 2 / n1 + Tb 2 / n2 + Tc 2 / n3 ] - 3 * ( N +1 ) H = * ( ) - 78 = Se compara con el estadístico 2 para = 0.05 y G.l. = k - 1 = 3-1 = 1 (k muestras) 2 crítico = (válido siempre que las muestras tengan al menos 5 elementos) Como H < 2 crítico, no se rechaza la Hipótesis Ho: Afirmando que no hay diferencia entre las poblaciones

439 439 Corrida en Minitab Stat > Nonparametrics > Kruskal Wallis Response C1 Factor C2 OK Kruskal-Wallis Test: Datos versus Factor Kruskal-Wallis Test on Datos Factor N Median Ave Rank Z Zona Zona Zona Overall P > 0.05 H = 1.08 DF = 2 P = No se rechaza Ho H = 1.09 DF = 2 P = (adjusted for ties)

440 440 Prueba de Medianas de Mood Realiza prueba de hipótesis de igualdad de medias en un diseño de una vía. La prueba es robusta contra Outliers y errores en datos y es adecuada para análisis preliminares Determina si K grupos independientes han sido extraidas de la misma población con medianas iguales o poblaciones con formas similares Con base en la gran mediana, anotar un signo positivo si la observación excede la mediana o un signo menos si es menor. Los valores que coincidan se reparten en los grupos Hacer una tabla de contingencia K x 2 con las frecuencias de signos más y menos en cada grupo K

441 441 Prueba de Medianas de Mood Se determina el estadístico Chi Cuadrada con: Probar Ho: Todas las medianas son iguales Ha: Al menos una mediana es diferente Se compara Chi Cuadrada calculada con Chi Cuadrada de alfa para 0.05 y (reng – 1)*(Col – 1) grados de libertad

442 442 Corrida con Minitab Se les da a 179 participantes una conferencia con dibujos para ilustrar el tema. Después se les da la prueba OTIS que mide la habilidad intelectual. Los participantes se clasificaron por nivel educativo 0-No prof., 1-Prof., 2-Prepa Ho: h1 = h2 = h3 Ha: no todas las medianas son iguales File > Open Worksheet > Cartoon.mtw Stat > Nonparametrics > Moods Median Test Response Otis Factor ED Ok

443 443 Corrida con Minitab Mood Median Test: Otis versus ED Mood median test for Otis P>0.05 Chi-Square = DF = 2 P = Se rechaza Ho Individual 95.0% CIs ED N Median Q3-Q (-----*-----) (------*------) (----*----) Overall median = 107.0

444 444 Diseños factoriales aleatorias bloqueados de Friedman Esta prueba es una alternativa al ANOVA de dos vías, es una generalización de las pruebas pareadas con signo. La aditividad es requerida para para estimar los efectos de los tratamientos Ho: Los tratamientos no tienen un efecto significativo Ha: Algunos tratamientos tienen efecto significativo

445 445 Diseños factoriales aleatorias bloqueados de Friedman Resultados de salida: Se muestra el estadístico de prueba con distribución Chi Cuadrada aproximada con gl = Tratamientos – 1. Si hay observaciones parecidas en uno o más bloques, se usa el rango promedio y se muestra el estadístico corregido La mediana estimada es la gran mediana más el efecto del tratamiento

446 446 Diseños factoriales aleatorias bloqueados de Friedman Ejemplo: Se evalúa el efecto del tratamiento de una droga en la actividad enzimática con tres niveles, probado en cuatro animales Open the worksheet EXH_STAT.MTW. Stat > Nonparametrics > Friedman. Response, seleccionar EnzymeActivity. En Treatment, seleccionar Therapy. En Blocks, seleccionar Litter. Click OK.

447 447 Diseños factoriales aleatorias bloqueados de Friedman Datos: EnzymeActivityTherapyLitter

448 448 Diseños factoriales aleatorias bloqueados de Friedman Resultados: Friedman Test: EnzymeActivity versus Therapy blocked by Litter S = 2.38 DF = 2 P = No rechazar Ho S = 3.80 DF = 2 P = (adjusted for ties) Sum of Therapy N Est Median Ranks Grand median =

449 449 Diseños factoriales aleatorias bloqueados de Friedman Resultados: El estadístico de prueba S tiene un valor P de sin ajustar para observaciones en cero y para el valor ajustado. Por tanto no hay evidencia suficiente para rechazar Ho Las medianas estimadas asociadas con los tratamientos son la gran mediana más los efectos estimados de los tratamientos. El estadístico de prueba se determina con base a los rangos en cada bloque y totales

450 450 Diseños factoriales aleatorias bloqueados de Friedman Resultados:

451 451 Diseños factoriales aleatorias bloqueados de Friedman Resultados:

452 452 Diseños factoriales aleatorias bloqueados de Friedman Resultados:

453 453 Prueba de igualdad de varianzas de Levene Se usa para probar la hipótesis nula de que las varianzas de k múltiples poblacionales son iguales Las igualdad de varianzas en las muestras se denomina homogeneidad de varianzas La prueba de Levene es menos sensible que la prueba de Bartlett o la prueba F cuando se apartan de la normalidad La prueba de Bartlett tiene un mejor desempeño para la distribución normal o aproximadamente normal

454 454 Prueba de igualdad de varianzas de Levene Para dos muestras el procedimiento es como sigue: Determinar la media Calcular la desviación de cada observación respecto a la media Z es el cuadrado de las desviaciones respecto a la media Aplicar la prueba t a las dos medias de los datos

455 455 Prueba de igualdad de Varianzas-Minitab Se estudian tamaños de papa inyectando con bacterias y sujetas a diferentes temperaturas. Antes del ANOVA se verifica la igualdad de varianzas Stat > ANOVA > Test for equal variances Response Rot Factors Temp Oxigen Confidence level 95% RotTempOxygen

456 456 Resultados

457 457 Resultados Test for Equal Variances: Rot versus Temp, Oxygen 95% Bonferroni confidence intervals for standard deviations Temp Oxygen N Lower StDev Upper Bartlett's Test (normal distribution) Test statistic = 2.71, p-value = P>0.05 no rechazar Ho Levene's Test (any continuous distribution) Test statistic = 0.37, p-value = 0.858

458 458 Prueba de la concordancia del Coeficiente de Kendall El coeficiente expresa el grado de asociación entre las calificaciones múltiples realizadas por un evaluador Ho: Las variables son independientes Ha: Las variables están asociadas Kendall usa la información relacionada con las calificaciones relativas y es sensible a la seriedad de mala clasificación Por ejemplo para K = jueces N = Muestras = 10 Rango medio = 220 / 22 S = 1066 Gl = n-1 = 9 Chi Cuadrada crítica = X ,9 = 21.67

459 459 Prueba de la concordancia del Coeficiente de Kendall El Estadístico Chi Cuadrada calculado es: Como Chi Cuadrada de alfa es menor que la calculada, los cuatro jueces están asociados significativamente. Constituyen un panel uniforme. No quiere decir que estén en lo correcto, solo que responden de manera uniforme a los estímulos

460 460 El coeficiente de correlación de rangos de Spearman (r s ) El coeficiente de correlación es una medida de la asociación que requiere que ambas variables sean medidas en al menos una escala ordinal de manera que las muestras u observaciones a ser analizadas pueden ser clasificadas en rangos en dos series ordenadas Ho: Las variables son independientes Ha: Las variables están asociadas Para el ejemplo anterior si N = 10, el coeficiente es:

461 461 Coeficiente de correlación de rangos para monotonía de preferencias Una persona interesada en adquirir un TV asigna rangos a modelos de cada uno de 8 fabricantes PreferenciaPrecio (rango) Fab (1) (5) (3) (4) (8) (7) (2) (6) Di cuadrada Rango Di

462 462 Coeficiente de correlación de rangos para monotonía de preferencias Ho: No existe asociación entre los rangos Ha: Existe asociación entre los rangos o es positiva o negativa El coeficiente de correlación de rangos de Spearman es: Rs = 1 – 6*suma(di cuadrada) / (n(n cuadrada – 1)) En este caso: Rs = 1 – 6(144)/(8*(64-1) = R0 se determina de la tabla de Valores críticos del coeficiente de correlación del coeficiente de correlación de rangos de Spearman Rt = Por tanto si hay asociación significativa en las preferencias

463 463 Tabla de constantes

464 464 Corrida con Minitab Para la corrida en Minitab primero se deben determinar los rangos en forma manual para las variables X y Y. Stat > Basic statistics > Correlation Variables Preferencia Precio Fabric ante Prefe- renciaPrecio Correlations: Preferencia, Precio Pearson correlation of Preferencia and Precio = P-Value = 0.047

465 465 Ejemplo con Minitab Se estudia la relación entre colágeno y Proline en pacientes con cirrosis Stat > Basic statistics > Correlation Variables Colágeno Proline PacienteColágenoProline Correlations: Colageno, Proline Pearson correlation of Colageno and Proline = P-Value = 0.002

466 466 Resumen de pruebas no paramétricas Prueba de signos de 1 muestra: Prueba la igualdad de la mediana a un valor y determina el intervalo de confianza Prueba de Wilconox de 1 muestra: Prueba la igualdad de la mediana a un valor con rangos con signo y determina el intervalo de confianza Comparación de dos medianas poblacionales de Mann Whitney: Prueba la igualdad de las medianas y determina el intervalo de confianza

467 467 Resumen de pruebas no paramétricas Comparación de igualdad de medianas poblacionales de Kruskal Wallis: Prueba la igualdad de las medianas en un diseño de una vía y determina el intervalo de confianza Comparación de medianas poblacionales de Mood: Prueba la igualdad de medianas con un diseño de una vía

468 468

469 469

470 470 VI.C Análisis del Modo y Efecto de Falla (FMEA)

471 471 ¿ Qué es el FMEA? El Análisis de del Modo y Efectos de Falla es un grupo sistematizado de actividades para: Reconocer y evaluar fallas potenciales y sus efectos. Identificar acciones que reduzcan o eliminen las probabilidades de falla. Documentar los procesos con los hallazgos del análisis. Existe el estándar MIL-STD-1629, Procedure for Performing a Failure Mode, Effects and Criticality Analysis

472 472 Propósitos del FMEA Mejorar la calidad, confiabilidad y seguridad de los productos y procesos evaluados Reducir el tiempo y costo de re-desarrollo del producto Documenta y da seguimiento a acciones tomadas para reducir el riesgo Soporta el desarrollo de planes de control robustos

473 473 Propósitos del FMEA Soporta el desarrollo de planes de verificación del desarrollo de diseño robusto Apoya a priorizar y enfocarse en eliminar/reducir problemas de proceso y producto y/o previene la ocurrencia de problemas Mejora la satisfacción del cliente/consumidor

474 474 Tipos del FMEA AMEF de concepto (CFMEA) A nivel de sistema, subsistema y componente AMEF de diseño (DFMEA) AMEF de Proceso (PFMEA) AMEF de maquinaria (como aplicación del DFMEA)

475 475 Tipos de FMEAs FMEA de Diseño (AMEFD), su propósito es analizar como afectan al sistema los modos de falla y minimizar los efectos de falla en el sistema. Se usan antes de la liberación de productos o servicios, para corregir las deficiencias de diseño. FMEA de Proceso (AMEFP), su propósito es analizar como afectan al proceso los modos de falla y minimizar los efectos de falla en el proceso. Se usan durante la planeación de calidad y como apoyo durante la producción o prestación del servicio.

476 476 PFMEA o AMEF de Proceso Fecha límite: Concepto Prototipo Pre-producción /Producción FMEAD FMEAP FMEAD FMEAP Característica de Diseño Paso de Proceso Falla Forma en que el Forma en que el proceso falla producto o servicio falla al producir el requerimiento que se pretende Controles Técnicas de Diseño de Controles de Proceso Verificación/Validación

477 477 Flujo del FMEA y su rol en evitar el Modo de Falla DFMEA Es un análisis detallado de los modos de falla potenciales relacionados con las funciones primarias y de interfases del sistema. Es el documento primario para demostrar que se han evitado errores e identifica los controles y acciones para reducir los riesgos asociados

478 478 Beneficios de los tipos de FMEA FMEA de Diseño Soporta el proceso de diseño al reducir el riesgo de fallas (incluyendo las salidas no intencionadas) por: Soporta la evaluación objetiva de diseño, incluyendo requerimientos funcionales y alternativas de diseño Evaluar los diseños iniciales sobre requerimientos de manufactura, ensamble, servicio y reciclado Incrementar la probabilidad de que los modos de falla potencial y sus efectos en el sistema y operación del producto se han considerado en el procesos de diseño/desarrollo

479 479 Beneficios de los tipos de FMEA FMEA de Diseño Proporcionar información adicional como apoyo en la planeación exhaustiva de programas de diseño eficiente, desarrollo y validación Desarrollo de una lista priorizada de modos de falla potenciales de acuerdo a su efecto en el cliente estableciendo un sistema de prioridades para mejoras al diseño, desarrollo, validación, prueba y análisis Proporcionar un formato de problemas pendientes para recomendar y dar seguimiento de acciones que reduzcan el riesgo

480 480 Beneficios de los tipos de FMEA FMEA de Proceso Los beneficios de un FMEA de proceso incluyen: Identifica las funciones y requerimientos del proceso Identifica modos de falla potenciales relacionados con el producto y proceso Evalúa los efectos de las fallas potenciales con el cliente Identifica las causas potenciales en el proceso de manufactura Identifica las variables de proceso en las cuales hay que enfocarse para reducir las fallas muy lejanas

481 481 Beneficios de los tipos de FMEA FMEA de Proceso Los beneficios de un FMEA de proceso incluyen: Identificar las variables del proceso centrandose en la ocurrencia Reducción o detección de las condiciones de falla Identificar variables del proceso a las cuales enfocar el control Desarrollar una lista ordenada clasificada de modos de falla estandarizados para establecer un sistema de prioridades

482 482 Beneficios de los tipos de FMEA FMEA de Proceso Sistema del prioridad del riesgo para consideraciones de acciones preventivas y correctivas Documentar los resultados del proceso de manufactura o proceso de ensamble Documenta los resultados del proceso de manufactura o ensamble Identifica deficiencias del proceso para orientar a establecer controles para reducir la ocurrencia de productos no conformes o en métodos para mejorar su detección

483 483 Beneficios de los tipos de FMEA FMEA de Proceso Identifica características críticas y/o significativas confirmadas Apoya en el desarrollo de Planes de Control a través de todo el proceso de manufactura Identifica aspectos de preocupación en relación con la seguridad del operador Retroalimenta información sobre cambios de diseño requeridos y factibilidad de manufactura a las áreas de diseño

484 484 Beneficios de los tipos de FMEA FMEA de Proceso Se enfoca a modos de falla potenciales del producto causados por deficiencias de manufactura o ensamble Confirma la necesidad de controles especiales en manufactura y confirma las Características Especiales designadas en el DFMEA Identifica modos de falla del proceso que pudieran violar las reglamentaciones del gobierno o comprometer la seguridad del personal, identificando otras Características especiales – de Seguridad del operador (OS) y con alto impacto (HI)

485 485 Salidas del FMEA de Proceso Una lista de modos potenciales de falla Una lista de Caracteríticas críticas y/o significativas Una lista de características relacionadas con la seguridad del operador y con alto impacto Una lista de controles especiales recomendados para las Características Especiales designadas y consideradas en el Plan de control

486 486 Salidas del FMEA de Proceso Una lista de procesos o acciones de proceso para reducir la Severidad, eliminar las causas de los modos de falla del producto o reducir su tasa de ocurrencia, y mejorar la tasa de Detección de defectos si no se puede mejorar la capacidad del proceso Cambios recomendados a las hojas de proceso y dibujos de ensamble

487 487 Modos de fallas vs Mecanismos de falla El modo de falla es el síntoma real de la falla (altos costos del servicio; tiempo de entrega excedido). Mecanismos de falla son las razones simples o diversas que causas el modo de falla (métodos no claros; cansancio; formatos ilegibles) o cualquier otra razón que cause el modo de falla

488 488 Definiciones Modo de Falla - La forma en que un producto o proceso puede fallar para cumplir con las especificaciones o requerimientos. - Normalmente se asocia con un Defecto, falla o error. Diseño Proceso Alcance insuficiente Omisiones Recursos inadecuadosMonto equivocado Servicio no adecuadoTiempo de respuesta excesivo Modo de Falla - La forma en que un producto o proceso puede fallar para cumplir con las especificaciones o requerimientos. - Normalmente se asocia con un Defecto, falla o error. Diseño Proceso Alcance insuficiente Omisiones Recursos inadecuadosMonto equivocado Servicio no adecuadoTiempo de respuesta excesivo

489 489 Definiciones Efecto - El impacto en el Cliente cuando el Modo de Falla no se previene ni corrige. - El cliente o el siguiente proceso puede ser afectado. Ejemplos: Diseño Proceso Serv. incompletoServicio deficiente Operación errática Claridad insuficiente Causa - Una deficiencia que genera el Modo de Falla. - Las causas son fuentes de Variabilidad asociada con variables de Entrada Claves Ejemplos: DiseñoProceso Material incorrecto Error en servicio Demasiado esfuerzo No cumple requerimientos Efecto - El impacto en el Cliente cuando el Modo de Falla no se previene ni corrige. - El cliente o el siguiente proceso puede ser afectado. Ejemplos: Diseño Proceso Serv. incompletoServicio deficiente Operación errática Claridad insuficiente Causa - Una deficiencia que genera el Modo de Falla. - Las causas son fuentes de Variabilidad asociada con variables de Entrada Claves Ejemplos: DiseñoProceso Material incorrecto Error en servicio Demasiado esfuerzo No cumple requerimientos

490 490 Preparación del AMEF Se recomienda que sea un equipo multidisciplinario El responsable del sistema, producto o proceso dirige el equipo, así como representantes de las áreas involucradas y otros expertos en la materia que sea conveniente.