La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

1 Programa de certificación de Black Belts VI. Lean Seis Sigma – Análisis B Segunda Parte P. Reyes / Abril de 2010.

Presentaciones similares


Presentación del tema: "1 Programa de certificación de Black Belts VI. Lean Seis Sigma – Análisis B Segunda Parte P. Reyes / Abril de 2010."— Transcripción de la presentación:

1 1 Programa de certificación de Black Belts VI. Lean Seis Sigma – Análisis B Segunda Parte P. Reyes / Abril de 2010

2 2 VI.F Métodos de análisis adicionales

3 3 Métodos adicionales de análisis 1. Análisis de brecha 2. Análisis de causa raíz 3. Análisis del Muda

4 4 VI.F.1 Análisis de brecha

5 5 El análisis de brecha (Gap Analysis) es una herramienta de evaluación para comparar el desempeño actual de la organización, a un desempeño potencial deseado. Identifica la diferencia de lo que es y lo que debería ser

6 6 Análisis de brecha Se pueden redirigir los esfuerzos a objetivos como: Permanecer en el negocio Mantener o incrementar la participación del mercado Mejorar el clima laboral Igualar o exceder a Benchmarks Igualar o exceder a la competencia Reducir tiempos de ciclo Lograr certificaciones Mejorar la productividad Mejorar los niveles de calidad

7 7 Análisis de brecha Se requieren tres categorías de información ¿Dónde estamos? ¿Dónde queremos ir? ¿Cómo vamos a medir los resultados?

8 8 Planeación de escenarios Al elaborar planes estratégicos, los directivos pueden confiarse o ser orgullosos de aceptar cambios. Por lo que se sugiere considerar escenarios del mejor y del peor caso, para evitar errores en la toma de decisiones Los escenarios permiten imaginar el desempeño futuro de la organización ante riesgos, para tomar las mejores decisiones y atender estos eventos. Aunque algunos elementos sean desconocidos

9 9 Planeación de escenarios El proceso de planeación es como sigue: Seleccionar al personal que pueda dar muchas perspectivas Desarrollar una lista de cambios percibidos, sociales, técnicos y económicos Agrupar estas percepciones en patrones relacionados Desarrollar una lista de las mejores percepciones (prioridades)

10 10 Planeación de escenarios El proceso de planeación es como sigue: Desarrollar un escenario grueso del futuro basado en estas prioridades Determinar como afectan los escenarios a la organización Determinar los cursos de acción potenciales a tomar Monitorear, evaluar, y revisar los escenarios

11 11 Planeación de escenarios Por lo común se perciben de 6 – 10 amenazas u oportunidades en 2 o 3 escenarios desarrollados. Evitar las siguientes trampas: No utilizar un facilitador experimentado Considerar escenarios como pronósticos Hacer escenarios simplistas Limitar el impacto global de los escenarios

12 12 Planeación de escenarios Evitar las siguientes trampas…..: No incluir a un equipo directivo en el proceso Tratar los escenarios solo como actividad informativa Limitar el estímulo imaginativo en el diseño del escenario No desarrollar escenarios para área de impacto clave del negocio

13 13 Planeación Hoshin Es una herramienta de ejecución, usada para organizar y desplegar planes estratégicos Hoshin traduce la visión de la empresa en resultados medibles dramáticos y rupturas estratégicas Hoshin se enfoca a identificar los pocos logros vitales de ruptura

14 14 Planeación Hoshin Tiene seis objetivos: Alinear las metas organizacionales Enfocarse en las pocas brechas vitales estratégicas Trabajar con otros para cerrar las brechas Especificar los métodos para lograr los objetivos Hacer visible el enlace entre planes locales Mejora continua del proceso de planeación

15 15 Otras técnicas de análisis clave Benchmarking Análisis FODA Análisis PEST Las cinco fuerzas competitivas de Porter

16 16 Evaluación organizacional Análisis funcional con datos de colección: Entrevistas cara a cara Selección de muestra apropiada Entradas de grupo de enfoque Observaciones de visitas a la planta Datos colectados de fuentes de la industria Se divide a la organización en áreas funcionales clave Liderazgo, prácticas de negocio, análisis financiero, mercadotecnia, gestión de la calidad, diseño y desarrollo, manufactura, salud y seguridad, etc…

17 17 Evaluación organizacional Se deben analizar los resultados y presentarlos a la dirección, quien debe promover e implementar planes de acción claros Normalmente el consultor colecta y resume la información en categorías principales para su revisión por la dirección. Quienes deben generar e implementar las soluciones y guiar al éxito

18 18 Métricas organizacionales Se establecen metas de desempeño organizacional y sus métricas en las áreas de: Utilidades Tiempos de ciclo Recursos Respuestas del mercado Por cada meta organizacional mayor deben desarrollarse métricas, con unidades y métodos de medición.

19 19 Métricas organizacionales Para los anteriores, las métricas pueden ser: Utilidades a corto y largo plazo Valor de acciones, inversión de capital, costos personales, comparaciones competitivas, ROI, ventas$ Tiempos de ciclo Tiempos de ciclo actuales Benchmarks internos Benchmarks externos Reducción en tiempos de ciclo

20 20 Métricas organizacionales Recursos No. De proyectos de mejora, ROI de proyectos, estudios de capacidad de procesos, reducciones de variabilidad, costos de calidad con relación a una base, porcentaje de defectos con relación a alguna base Respuestas del mercado Encuestas con clientes Análisis de devoluciones Desarrollo de nuevos productos Retención de clientes Pérdidas con clientes Tasas de cortesías e instalaciones

21 21 Métricas organizacionales Las métricas permiten medir los avances en relación a las metas organizacionales De acuerdo a Juran se debe tomar en cuenta lo siguiente: Las métricas deben tener un significado estándar Deben apoyar el proceso de toma de decisiones Deben proporcionar información valiosa Debe ser fácil de instalar Si son valiosas, deben usarse en todo Las métricas se basan en la retroalimentación con base en clientes, proveedores, o internas

22 22 VI.F.2 Análisis de causa raíz

23 23 Análisis de causa raíz Un equipo tiene la responsabilidad de determinar la causa raíz de una deficiencia y corregirla. Pueden tomar varios pasos: Situación (presa con fuga) Acción inmediata (desahogarla) Acción intermedia (reparar la presa) Acción en la causa raíz (identificar que causó la fuga para evitar su recurrencia y reconstruir la presa)

24 24 Análisis de causa raíz Se pueden utilizar las siguientes herramientas: Herramientas subjetivas: Preguntar por qué cinco veces, tormenta de ideas, análisis de flujo de proceso, PHVA, grupo nominal, observación de operación, diagrama de causa efecto, técnicas de consenso, seis sombreros de pensamiento, equipos de trabajo, FMEA, FTA

25 25 Análisis de causa raíz Se pueden utilizar las siguientes herramientas: Herramientas analíticas: Colección y análisis de datos Análisis de Pareto, análisis de regresión, hoja de verificación Análisis de matriz de datos Análisis de capacidad de procesos, división de variación Subgrupos de datos, experimentos simples, DOE Pruebas analíticas, cartas de control

26 26 Análisis de causa raíz Ante una acción correctiva permanente, la dirección debe determinar si: El análisis de causa raíz ha identificado el impacto completo del problema La acción correctiva es efectiva para eliminar o prevenir la recurrencia La acción correctiva es realista y sostenible

27 27 Los 5 Por qués Se hace la pregunta ¿Por qué? Cinco veces ¿Por qué? Nos faltaron partes por máquina dañada ¿Por qué? La máquina no ha tenido mantenimiento en los últimos 3 meses ¿Por qué? El departamento de mantenimiento se ha reducido a 6 personas de 8 ¿Por qué? Se pasó del presupuesto, les quitaron el tiempo extra y dos personas ¿Por qué? La empresa no ha tenido los resultados esperados y el director ha hecho recortes para salvar la situación, teme por su puesto

28 28 5Ws y 1H El método de las 5Ws y 1H se resume al preguntar ¿quién?, ¿qué?, ¿cuándo?, ¿dónde?, ¿por qué? Y ¿cómo?. Pueden usarse las ramas del diagrama de causa efecto

29 29 Diagrama de causa efecto Rompe el problema en partes más pequeñas Muestra muchas causas potenciales gráficamente Muestra como interactúan las causas Sigue las reglas de la tormenta de ideas Las sesiones tienen tres partes: Tormenta de ideas Dar prioridades (identificar las tres causas principales) Desarrollo de un plan de acción

30 30 Diagrama de Pareto Sirve para identificar problemas u oportunidades prioritarias o mayores De acuerdo a Juran permite identificar los pocos vitales de los muchos triviales El principio de Pareto sugiere que unas cuantas categorías de problemas (20% aprox.) presentan la mayor oportunidad para la mejora (80% aprox.)

31 31 Método de las 8 disciplinas - Ford El método de Ford para el análisis de causa raíz es: D1. Establecer el equipo D2. Describir el problema D3. Desarrollar una acción de contención D4. Identificar la causa raíz D5. Desarrollar alternativas de solución D6. Implementar una acción correctiva permanente D7. Prevenir la recurrencia D8. Reconocer al equipo y las contribuciones individuales

32 32 Análisis de árbol de falla - FTA FTA es un método sistemático deductivo, para definir un evento singular específico e indeseable, y determinar todas las posibles razones (fallas) que pueden hacer que ocurra el evento Se utiliza el las primeras fases del diseño como herramienta para impulsar modificaciones iniciales de diseño.

33 33 Análisis de árbol de falla - FTA Otras áreas de su aplicación son: Análisis funcional de sistemas complejos Evaluación de requerimientos de seguridad, confiabilidad, defectos de diseño, riesgos de peligro, acciones correctivas, simplificación de mantenimiento y detección de falla, eliminación lógica de causas de falla

34 34 Análisis de árbol de falla - FTA Se prefiere el FTA en vez del FMEA cuando: La seguridad el personal es importante Se pueden identificar un número pequeño de eventos superiores Hay alto potencial de falla El problema es cuantificar la evaluación del riesgo La funcionalidad del producto es altamente compleja El producto no es reaprables

35 35 Análisis de árbol de falla - FTA Se prefiere el FMEA en vez del FTA cuando: Los eventos superiores no se pueden definir explícitamente Son factibles múltiples perfiles potencialmente exitosos La identificación de todos los modos de falla es importante La funcionalidad del producto tiene poca intervención externa

36 36 Análisis de árbol de falla - FTA Símbolos de compuertas lógicas para determinar la confiabilidad del sistema. Hay símbolos de eventos y símbolos de compuertas Símbolos de eventos Evento superior, falla a nivel sistema o evento indeseable Evento básico, evento falla de más bajo nivel a estudiar Evento de falla, evento de falla de bajo nivel. Puede recibir entradas o proporcionar salidas a una compuerta lógica

37 37 Análisis de árbol de falla - FTA Símbolos de compuertas lógicas AND. El evento de salida ocurre solo Si ocurren todos los eventos de entrada Simultaneamente OR. El evento de salida ocurre si Ocurre alguno de los eventos de La entrada

38 38 Análisis de árbol de falla - FTA Ejemplo: se asume que falla el sistema superior

39 39 Análisis de árbol de falla - FTA La probabilidad de falla del sistema es 5.02%. Se indica que el teclado es prioritario (0.20), después la CPU (0.015) y el monitor (0.015)

40 40 VI.F.3 Análisis del Muda

41 41 Análisis de Muda Las actividades que no agregan valor se clasifican como Muda, de acuerdo a Imai son: Sobreproducción Inventarios Reparaciones / rechazos Movimientos Transportes Re – Procesos Esperas

42 42 Sobreproducción Se produce más en cierto momento, por: Producir más de lo necesario por el siguiente proceso Producir antes de lo requerido por el siguiente proceso Producir más rápido de lo requerido por el siguiente proceso Sus consecuencias son: Espacio extra en las instalaciones del cliente Materias primas adicionales en uso Utilización de energéticos y transportes adicionales Costos de programación adicionales

43 43 Inventario en exceso Las partes, materias primas, inventario en proceso, refacciones y productos terminados forman el inventario, el inventario es Muda ya que requiere: Espacio en piso, Transporte, Montacargas Sistemas de transportadores Interés sobre el costo de los materiales Puede verse afectado por: El polvo, deterioro, obsolescencia Humedad (oxidación), daño durante el manejo

44 44 Inventario en exceso Las partes, materias primas, inventario en proceso, refacciones y productos terminados forman el inventario, el inventario es Muda ya que requiere: Espacio en piso, Transporte, Montacargas Sistemas de transportadores Interés sobre el costo de los materiales Puede verse afectado por: El polvo, deterioro, obsolescencia Humedad (oxidación), daño durante el manejo

45 45 Reparaciones / defectos Las reparaciones o el retrabajo de partes defectivas significa un segundo intento de producirlas bien. Se rompe el Takt Time Puede haber desperdicio de materiales o productos no recuperable Si hay defectos, no puede implementarse el flujo de una pieza Los cambios de diseño también son Muda

46 46 Movimientos Los movimientos adicionales del personal son Muda. Caminar mucho, cargar pesado, agacharse, estirarse mucho, repetir movimientos, etc. El lugar de trabajo debe diseñarse ergonómicamente, analizando cada estación de trabajo La ergonomía puede causar daños y producción perdida

47 47 Movimientos Algunas reglas de la ergonomía incluyen: Enfatizar la seguridad todas las veces Adecuar el empelado a la tarea Cambiar el lugar de trabajo para que se adecue al empleado Mantener posiciones neutrales del cuerpo Rediseñar las herramientas para reducir esfuerzo y daños Variar las tareas con rotación de puestos Hacer que la máquina sirva al ser humano

48 48 Reprocesos Consiste de pasos adicionales en el proceso de manufactura, por ejemplo: Remoción de rebabas Maquinado de partes mal moldeadas Agregar procesos de manejo adicionales Realizar procesos de inspección Repetir cambios al producto innecesarios Mantener copias adicionales de información

49 49 Transportes Todo transporte es Muda excepto la entrega al cliente. Incluye: Uso de montacargas Uso de transportadores Uso de movedores de pallets y camiones Puede ser causado por: Deficiente distribución de planta o de celdas Tiempos de espera largos, áreas grandes de almacenaje, o problemas de programación

50 50 Esperas Ocurre cuando un operador está listo para realizar su operación, pero permanece ocioso, por falla de máquina, falta de partes, paros de línea, etc. El Muda de espera puede ser por: Operadores ociosos Fallas de maquinaria Tiempos de ajuste y preparación largos Tareas no programadas a tiempo Flujo de materiales en lotes Juntas largas e innecesarias

51 51 Mudas adicionales Otros mudas adicionales a los 7 desperdicios son: Recursos mal utilizados Recursos poco utilizados Actividades de conteo Búsqueda de herramientas o partes Sistemas múltiples Manos múltiples Aprobaciones innecesarias Fallas de máquinas Envío de producto defectivo al cliente o mal servicio

52 52 VI.B.3 Regresión lineal múltiple

53 53 Regresión múltiple Cuando se usa más de una variable independiente para predecir los valores de una variable dependiente, el proceso se llama análisis de regresión múltiple, incluye el uso de ecuaciones lineales. Se asume que los errores u tienen las características siguientes: Tienen media cero y varianza común 2. Son estadísticamente independientes. Están distribuidos en forma normal.

54 54 Regresión múltiple Estimación de los parámetros del modelo Se trata de minimizar los errores cuadráticos en: El modelo de regresión múltiple en forma matricial es: Y = X + = [1 : D] + Y es un vector N x 1. X es una matriz de orden N x (k + 1), donde la 1ª. columna es 1s. es un vector de orden (k + 1) x 1. es un vector de orden N x 1. D es la matriz de Xij con i = 1, 2,..., N; j = 1, 2,......, k

55 55 Regresión múltiple Estimación de los parámetros del modelo: b = (XX)-1 XY El vector de valores ajustados se puede expresar como: La varianza del modelo se estima como:

56 56 Tamaño de muestra Tomar 5 observaciones para cada una de las variables independientes, si esta razón es menor de5 a 1, se tiene el riesgo de sobreajustar el modelo Un mejor nivel deseable es tomar 15 a 20 observaciones por cada variable independiente

57 57 Ejemplo de regresión múltiple Un embotellador está analizando las rutas de servicio de máquinas dispensadoras, está interesado en predecir la cantidad de tiempo requerida por el chofer para surtir las máquinas en el local (Y). La actividad de servicio incluye llenar la máquina con refrescos y un mantenimiento menor. Se tienen como variables el número de envases con que llena la máquina (X1) y la distancia que tiene que caminar (X2).

58 58 Ejemplo de regresión múltiple

59 59 Ejemplo de regresión múltiple Solución matricial

60 60 Ejemplo de regresión múltiple Solución matricial

61 61 Ejemplo de regresión múltiple Solución matricial

62 62 Ejemplo de regresión múltiple Solución matricial Intervalo de confianza para Beta 1 Por tanto el intervalo de confianza para el 95% es:

63 63 Ejemplo de regresión múltiple Solución matricial El embotellador desea construir un intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo: X1 = 8 envases y cuya distancia es X2 = 275 pies. La varianza de la Y0 estimada es (tomando M8=inv(XX) :

64 64 Ejemplo de regresión múltiple Solución matricial El intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo es para 95% de nivel de confianza: Que se reduce a: Y

65 65 Ejemplo de regresión múltiple Solución matricial El análisis de varianza es:

66 66 Ejemplo de regresión múltiple Solución matricial El comportamiento de los residuos es como sigue:

67 67 Multicolinealidad La multicolinealidad implica una dependencia cercana entre regresores (columnas de la matriz X ), de tal forma que si hay una dependencia lineal exacta hará que la matriz XX sea singular. La presencia de dependencias cercanamente lineales impactan dramáticamente en la habilidad para estimar los coeficientes de regresión. La varianza de los coeficientes de la regresión son inflados debido a la multicolinealidad. Es evidente por los valores diferentes de cero que no están en la diagonal principal de XX. Que son correlaciones simples entre los regresores.

68 68 Multicolinealidad Una prueba fácil de probar si hay multicolinealidad entre dos variables es que su coeficiente de correlación sea mayor a 0.7 Los elementos de la diagonal principal de la matriz XX se denominan Factores de inflación de varianza (VIFs) y se usan como un diagnóstico importante de multicolinealidad. Para el componente j – ésimo se tiene: Si es mayor a 10 implica que se tienen serios problemas de multicolinealidad.

69 69 Análisis de los residuos Los residuos graficados vs la Y estimada, pueden mostrar diferentes patrones indicando adecuación o no adecuación del modelo: Gráfica de residuos aleatorios cuya suma es cero (null plot) indica modelo adecuado Gráfica de residuos mostrando una no linealidad curvilínea indica necesidad de transformar las variables Si los residuos se van abriendo indica que la varianza muestra heteroestacidad y se requiere transformar las variables. Se puede probar con la prueba de Levene de homogeneidad de varianzas

70 70 Escalamiento de residuos En algunos casos es difícil hacer comparaciones directas entre los coeficientes de la regresión debido a que la magnitud de bj refleja las unidades de medición del regresor Xj. Por ejemplo: Para facilitarla visualización de residuos ante grandes diferencias en los coeficientes, se sugiere estandarizar o estudentizar los residuos

71 71 Escalamiento de residuos Residuos estandarizados Se obtienen dividiendo cada residuo entre la desviación estándar de los residuos Después de la estandarización, los residuos tienen una media de 0 y desviación estándar de 1 Con más de 50 datos siguen a la distribución t, de manera que si exceden a 1.96 (límite para alfa 0.05) indica significancia estadística y son outliers

72 72 Escalamiento de residuos Residuos estudentizados Son similares a los residuos donde se elimina una observación y se predice su valor, pero además se elimina la i-ésima observación en el cálculo de la desviación estándar usada para estandarizar la í-ésima observación Puede identificar observaciones que tienen una gran influencia pero que no son detectadas por los residuos estandarizados H = X (XX)-1X es la matriz sombrero o hat matriz.

73 73 Escalamiento de residuos El estadístico PRESS (Prediction Error Sum of Squares) es una medida similar a la R2 en la regresión. Difiere en que se estiman n-1 modelos de regresión. En cada modelo se omite una observación en la estimación del modelo de regresión y entonces se predice el valor de la observación omitida con el modelo estimado. El residuo iésimo será: El residuo PRESS es la suma al cuadrado de los residuos individuales e indica una medida de la capacidad de predicción

74 74 Gráficas parciales de regresión Para mostrar el impacto de casos individuales es más efectiva la gráfica de regresión parcial. Un caso outlier impacta en la pendiente de la ecuación de regresión (y su coeficiente). Una comparación visual de la gráfica de regresión parcial con y sin la observación muestra la influencia de la observación El coeficiente de correlación parcial es la correlación de la variable independiente Xi la variable dependiente Y cuando se han eliminado de ambos Xi y Y La correlación semiparcial refleja la correlación entre las variables independiente y dependiente removiendo el efecto Xi

75 75 Matriz sombrero Los puntos de influencia son observaciones substancialmente diferentes de las observaciones remanentes en una o más variables independientes Contiene valores (sombrero en su diagonal) para cada observación que representa influencia. Representa los efectos combinados de todos las variables independientes para cada caso

76 76 Matriz sombrero Los valores en la diagonal de la matriz sombrero miden dos aspectos: Para cada observación miden la distancia de la observación al centro de la media de todas las observaciones de las variables independientes Valores altos en la diagonal indica que la observación tiene mucho peso para la predicción del valor de la variable dependiente, minimizando su residuo El rango de valores es de 0 a 1, con media p/n, p es el número de predictores y n es el tamaño de muestra. Valores límite se encuentran en 2p/n y 3p/n

77 77 Distancia de Mahalanobis D 2 es una medida comparable a los valores sombrero (hat values) que considera sólo la distancia de una observación del valor medio de las variables independientes. Es otra forma de identificar outliers La significancia estadística de la distancia de Malahanobis se puede hacer a partir de tablas del texto: Barnett, V., Outliers in Statistical Data, 2nd. Edition, Nueva York, Wiley, 2984

78 78 Influencia en coeficientes individuales El impacto de eliminar una observación simple en cada uno de los coeficientes de la regresión múltiple se muestra con la DFBETA y su versión estandarizada SDFBETA. Se sugiere aplicar como límites ±1.0 o ±2 para tamaños de muestra pequeños y ±n para muestras medias y grandes La distancia de Cook (Di) captura el impacto de una observación: La dimensión del cambio en los valores pronosticados cuando se omite la observación y la distancia de las otras observaciones, el límite es 1 o 4/(n-k-1)

79 Influencia en coeficientes individuales La medida COVRATIO estima el efecto de la observación en la eficiencia del proceso, en sus errores estándar de los coeficientes de la regresión. Considera a todos los coeficientes colectivamente. El límite puede ser establecido en 1 ±3p/n, los valores mayores al límite hacen el proceso más eficiente y los menores más ineficiente La medida SDFFIT es el grado en que cambian los valores ajustados o pronosticados cuando el caso se elimina. El valor límite es 2*raíz((k+1)/(n-k-1))

80 80 Ejemplo de regresión múltiple Solución con Excel y Minitab

81 81 Ejemplo de Regresión Múltiple Cat. (US News) GMAT Salario Inicial ($) % Aceptación Stanford Harvard Penn (Wharton) MIT (Sloan) Chicago Northwestern Columbia Dartmouth Duke Berkeley Virginia Michigan NYU Carnegie Mellon Yale U.N.C UCLA Texas-Austin Indiana Cornell Rochester Ohio State Emory Purdue Maryland

82 Interpretación de Resultados de Excel- Regresión Multiple SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations25 ANOVA dfSS MS F Significance F Regression31.12E E-07 Residual213.45E Total241.47E+09 Coefficients Standard t Stat P-value Lower 95% U pper 95% Error Intercept X Variable X Variable X Variable

83 Resultados de Excel- Regresión sólo con sólo X1 SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations25 ANOVA dfSSMS F Significance F Regression11.08E E E-08 Residual233.93E Total241.47E+09 Coefficients Standard Errort StatP-valueLower 95% Upper 95% Intercept E X Variable E Con sólo X1, el Modelo se simplifica enormemente poca importancia práctica se pierde en R 2 (ajustada) Con sólo X1, el Modelo se simplifica enormemente poca importancia práctica se pierde en R 2 (ajustada)

84 La ecuación de regresión es: y = x Predictor Coef Desv. EstándarTp Constante x S = 4133 R 2 = 73.3% R 2 (ajustada) = 72.1% Análisis de Variancia Fuente DFSS MS F p Regresión Error Total Reducción del Modelo Vuelva a correr la regresión usando la categoría US News, como el único agente de predicción (predictor) El Modelo se simplifica enormemente..…poca importancia práctica se pierde en R 2 (ajustada) El Modelo se simplifica enormemente..…poca importancia práctica se pierde en R 2 (ajustada)

85 85 Corrida en Minitab Se introducen los datos en varias columnas C1 a C5 incluyendo la respuesta Y (heatflux) y las variables predictoras Xs (North, South, East) HeatFluxInsolationEastSouthNorth

86 86 Corrida en Minitab Utilzar el archivo de ejemplo Exh_regr.mtw Opción: Stat > Regression > Regression Para regresión lineal indicar la columna de respuesta Y (Score2) y X (Score1) En Regresión lienal en opciones se puede poner un valor Xo para predecir la respuesta e intervalos. Las gráficas se obtienen Stat > Regression > Regression > Fitted line Plots Para regresión múltiple Y (heatflux) y las columnas de los predictores (north, south, east)

87 87 Resultados de la regresión lineal The regression equation is Score2 = Score1 Predictor Coef SE Coef T P Constant Score S = R-Sq = 95.7% R-Sq(adj) = 95.1% Analysis of Variance Source DF SS MS F P Regression Residual Error Total Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI ( , ) ( , ) New Obs Score

88 88 Resultados de la regresión lineal

89 89 Resultados de la regresión Múltiple The regression equation is HeatFlux = North South East Predictor Coef SE Coef T P Constant North South East S = R-Sq = 87.4% R-Sq(adj) = 85.9% Analysis of Variance Source DF SS MS F P Regression Residual Error Total Source DF Seq SS North South East

90 90 La regresión sólo puede utilizarse con información de variables continuas. Los residuos deben distribuirse normalmente con media cero. Importancia práctica: (R 2 ). Importancia estadística: (valores p) La regresión puede usarse con un predictor X o más, para una respuesta dada Reduzca el modelo de regresión cuando sea posible, sin perder mucha importancia práctica Resumen de la Regresión

91 91 VI.B.4 Herramientas multivariadas

92 92 Herramientas multivariadas 1. Introducción 2. Análisis de componentes principales 3. Análisis factorial 4. Análisis discriminante 5. MANOVA

93 93 Introducción En el análisis multivariado se incluyen dos o más variables dependientes Y1, Y2, etc. Consideradas simultáneamente para las variables independientes X1, X2, …., Xn Normalmente se resuelven con herramientas computacionales tales como Minitab y SPSS. Entre las herramientas principales se encuentran: Componentes principales, análisis factorial, análisis discriminante, análisis de conglomerados, análisis canónico, MANOVA

94 94 Análisis de componentes principales El análisis (PCA) y el análisis factorial (FA) se usan para encontrar patrones de correlación entre muchas variables posibles y subconjuntos de datos Busca reducirlas a un menor número de componentes o factores que representen la mayor parte de la varianza. Normalmente se requieren al menos 100 observaciones y cinco observaciones por variable

95 95 Análisis de componentes principales Pasos de análisis en Minitab Se usa una matriz de correlación para determinar la relación entre componentes Las matrices definen cantidades como eigenvalores y eigenvectores Se suman los eigenvalores y se calculan las proporciones de cada componente Se identifican los PC1, PC2, … que explican la mayor parte de la varianza Se puede hacer un diagrama de Pareto como apoyo

96 96 Ejemplo: Alimentos en Europa

97 97 Corrida en Minitab 2 Stat > Multivariate > Principal components 3 En Variables, X1, X2, X3, X4, X6, X7, X8, X9 4 En Number of factors to extract, 3. Seleccionar Correlation Matrix 5 Click Graphs y seleccionar Scree Plot, Score plot for first 2 components Loading plot for first 2 components 8 Click Storage e indicar las columnas donde se guarden los coeficientes y los valores Z (scores) Coef1 Coef 2 y Z1 Z2 9. Click OK en cada uno de los cuadros de diálogo

98 98 Ejemplo: Alimentos en Europa Dos componentes exceden El eigenvalor de ref. de 1

99 99 Ejemplo: Alimentos en Europa

100 Ejemplo: factores principales para crecimiento tecnológico en la comunidad Factores independientes Miles de trabajadores en alta tecnología Cultura emprendedora (inicios por año) Interacciones con la universidad (proyectos por año) Clases de creatividad (porcentaje de profesionales) Cantidad de capital de aventura (millones de dólares) 100

101 Matriz de correlación del ejemplo 101

102 Resultados La suma de los eigenvalores es aprox. cinco La proporción de la varianza explicada por el componente 1 es de 71.7% PC1 y PC2 explican el 89.2% de la varianza, por tanto son los componentes principales 102

103 103 Análisis factorial Es una técnica de reducción de variables para identificar factores que expliquen la variación, aunque se reiere un juicio subjetivo. Las variables de salida están relacionadas linealmente con las variables de entrada. Las variables deben ser medibles y simétricas. Debe haber cuatro o más factores de entrada para cada variable independiente

104 104 Análisis factorial Se especifican un cierto número de factores comunes El análisis factorial se hace en dos etapas: Extracción de factores, para identificar los factores principales para un estudio posterior Rotación de factores, para hacerlos más significativos

105 105 Corrida con Minitab 2 Stat > Multivariate > Factor Analysis. 3 En Variables, X1, X2, X3, X4, X6, X7, X8, X9 4 En Number of factors to extract, 4. En Method of Extraction, seleccionar Principal components 6 En Type of Rotation, seleccionar Varimax. 7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot. Click Results y seleccionar Sort loadings. Seleccionar Storage e indicar columnas para ponderaciones, coeficientes, Zs, eigenvalores, etc. Click OK en cada uno de los cuadros de d

106 106 Ejemplo

107 107 Ejemplo:

108 108 Análisis discriminante Si se tiene una muestra con grupos conocidos, el análisis discriminante clasifica las observaciones o atributos en dos o más grupos Puede utilizarse como herramienta predictiva o descriptiva Las variables deben ser multivariadamente normales, con la misma varianza y covarianza poblacional entre variables dependientes, y las muestras exhiben independencia

109 109 Ejemplo de actividades en países

110 110 Corrida con Minitab 2 Stat > Multivariate > Discriminant Analysis. 3 En Groups, poner SalmonOrigin. 4 En Predictors, poner Freshwater Marine. Click OK.

111 111 Corrida con Minitab

112 112 Análisis de conglomerados

113 113 Análisis de conglomerados Se usa para determinar agrupaciones o clasificaciones de un conjunto de datos Las personas se pueden agrupar por IQ, padres, hábitos de estudio, etc. Se trata de dar sentido a grandes cantidades de datos de cuestionarios, ecnuestas, etc.

114 114 Ejemplo Suponer que un estudio de mercado trata de determinar segmentos de mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2), medidas del 0 al 10 en 7 personas (A-G). VariablesV1V2 A32 B45 C47 D27 E66 F77 G64

115 115 Corrida en Minitab Stat > Multivariate Análisis > Cluster Observations Distance Measured Euclidean Seleccionar Show Dendogram OK

116 116 Análisis de correlación canónico Prueba la hipótesis de que los efectos pueden tener causas múltiples y de que las causas pueden tener efectos múltiples (Hotelling 1935) Es como una regresión múltiple para determinar la correlación entre dos conjuntos de combinaciones lineales, cada conjunto puede tener varias variables relacionadas. La relación de un conjunto de variables dependientes a un conjunto de variables independientes forma combinaciones lineales

117 117 Análisis de correlación canónico Se usan los más altos valores de correlación para los conjuntos. Los pares de combinaciones lineales se denominan variates canónicas con correlaciones canónicas (Rc con valor mayor a 0.3) Por ejemplo se quiere determinar si hay una correlación entre las características de un ingeniero industrial y las habilidades requeridas en la descripción de puesto del mismo ingeniero.

118 Ejemplo: Statgraphics - coches 118

119 Ejemplo: Statgraphics - coches 119

120 Ejemplo: Statgraphics - coches 120

121 Ejemplo: Statgraphics - coches 121

122 Ejemplo: Statgraphics - coches 122 La primera correlación de 0.94 tiene correlaciones canónicas asociadas: U1 = Engine Size Horsepower Length Wheelbase Width Rear Seat Weight V1 = Mid Price – * GPM Highway GPM City U Turn Space Las variables están estandarizadas. Parece haber una relación primaria entre peso del vehículo y las millas por galón de rendimiento.

123 123 MANOVA (Análisis de varianza múltiple) Es un modelo para analizar la relación entre una o más variables independientes y dos o más variables dependientes Prueba si hay diferencias significativas en las medias de grupos de una combinanción de respuestas Y. Los datos deben ser normales, con covarianza homogenea y observaciones independientes

124 124 MANOVA (Análisis de varianza múltiple)

125 125 Diferencias de ANOVA y MANOVA

126 126 Ejemplo: Extrusión de película plástica Se realiza un estudio para determinar las condiciones óptimas para extruir película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco veces en cada combinación de dos factores – tasa de extrusión y cantidad de aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA balanceado para probar la igualdad de las medias.

127 127 Ejemplo: Extrusión de película plástica

128 128 Ejemplo: Extrusión de película plástica 1 Abrir el archivo EXH_MVAR.MTW. 2 Seleccionar Stat > ANOVA > Balanced MANOVA. 3 En Responses, poner Tear Gloss Opacity. 4 En Model, poner Extrusion | Additive. 5 Click Results. En Display of Results, seleccionar Matrices (hypothesis, error, partial correlations) y Eigen analysis. 6 Click OK en cada cuadro de diálogo.

129 129 Ejemplo

130 130 Ejemplo: Extrusión de película plástica Las matrices SSCP evalúan la contribución a la variabilidad de manera similar a la suma de cuadrados en la ANOVA univariada. Las correlaciones parciales entre Tear y Gloss son pequeñas. Como la estructura de las correlaciones es débil, se pueden realizar análisis univariados de ANOVA para cada una de las respuestas.

131 131 VI.B.5 Análisis de datos por atributos

132 132 Análisis de datos por atributos Si los CTQs son variables continuas, se usa la regresión, dependiendo de la naturaleza de la característica crítica para el cliente (CTSs) como éste la expresa: CTS HERRAMIENTA Nominal (Verde, Rojo, azul) Regresión Logística Nominal Atributo (Pasa/No pasa) Regresión Logística Binaria Ordinal (1, 2, 3, 4, 5) Regresión Logística Ordinal

133 133 Análisis de datos por atributos El análisis de datos por atributos se organiza en valores, categorías o grupos dicotómicos Las decisiones incluyen: si / no, pasa / no pasa, bueno / malo, pobre/justo/bueno/superior/excelente, etc. Entre los modelos no lineales de regresión usados se tienen: regresión logística, regresión logit y regresión probit

134 134 Análisis de datos por atributos Regresión logística Relaciona variables independientes categóricas a una variable dependiente (Y). Minitab incluye los modelos binario, ordinal y nominal Regresión logit Es subconjunto del modelo log-lineal. Tiene solo una variable dependiente, usa determinaciones de probabilidad o tasa de probabilidad

135 135 Análisis de datos por atributos Regresión probit Es similar a la prueba de vida acelerada, la unidad se somete a esfuerzo con la respuesta pasa/falla, bueno o malo. Es una respuesta binaria en un tiempo de falla futuro

136 136 Regresión logística o binaria En caso de información cualitativa es necesario traducir las preferencias del cliente expresadas como atributos a un intervalo de valores aceptables de variables (Especificaciones).

137 137 Regresión logística o binaria Es similar a la regresión múltiple excepto que la respuesta es binaria (si/no, bueno/malo, etc.) Sus coeficientes se determinan por el método de máxima verosimilitud Su función tiene forma de S, con valores máximos de Cero y Uno. Yi = 0, 1

138 138 Regresión logística o binaria La probabilidad de que el resultado esté en cierta categoría es: El método de cálculo del coeficiente b es diferente que en la regresión lineal Los coeficientes se determinan con la relación sig.:

139 139 Regresión logística Condiciones: Hay solo dos resultados posibles Hay solo un resultado por evento Los resultados son independientes estadísticamente Todos los predictores relevantes están en el modelo Es mutuamente exclusivo y colectivamente exhaustivo Los tamaños de muestra son mayores que para la regresión múltiple Los efectos positivos se obtienen con b1>1 y los negativos con b1 e 0 a 1

140 140 Regresión logística Relación con ajuste pobre Relación con buen ajuste

141 141 Regresión logística - Procedimiento Definir el atributo a traducir (y) Definir la variable apropiada para el atributo (x) Definir el modelo matemático a probar Determinar los defectos que está dispuesto a aceptar Recolecte información de x vs y. Asigne 1 si falla y 0 si es aceptable. Analice la información mediante Regresión Logística Binaria

142 142 Regresión logística- Procedimiento

143 143 Regresión logística - Procedimiento Observe el P-Value de Deviance en la Sesión, debe de ser grande (P >0.10) Obtenga los coeficientes del modelo (De la Sesión) Coeficientes del modelo P-Value de Deviance

144 144 Regresión logística - Procedimiento Construya el modelo de regresión para la probabilidad de falla estará dado por : Identifique el(los) valor(es) de x que le generarán como máximo la cantidad de defectos que usted está dispuesto a aceptar [4] Donde : b 0, b 1,... = Coeficientes del modelo P(Falla) = b 0 +b 1 x e 1 + e b 0 +b 1 x

145 145 Ejemplo de riesgo de paro cardiaco Para Fuma, el coeficiente negativo de y la tasa de posibilidades de 0.30, indica que quien fuma, tiende a tener una tasa de pulso más alta que los sujetos que no fuman. Si los sujetos tienen el mismo peso, las posibilidades de que los fumadores tengan un pulso bajo sea sólo del 30% de las posibilidades de que los no fumadores tengan un pulso bajo.

146 146 Regresión logística ordinal Cuando la respuesta ó CTS es de tipo ordinal (Varias categorías de respuesta como totalmente de acuerdo, de acuerdo, en desacuerdo y totalmente en desacuerdo) y el Factor ó CTQ es de naturaleza continua, entonces, para definir Especificaciones, la herramienta a utilizar es la Regresión Logística Ordinal.

147 147 Regresión logística ordinal - Procedimiento Defina la variable de respuesta a traducir (y ó CTS) Defina el CTQ (x) ó variable a relacionar con el CTS Defina el modelo matemático a probar Determine los defectos que está dispuesto a aceptar en la categoría de interés Recolecte información de x vs y Analice la información mediante Regresión Logística Ordinal

148 148 Regresión logística ordinal - Procedimiento Stat > Regression > Ordinal Logistic Regression Seleccione la respuesta (y) Seleccione los términos que estima tiene el modelo [3] Constantes y Coeficientes del modelo

149 149 Regresión logística ordinal - Procedimiento Observe el P-Value de Deviance en la Sesión, debe de ser grande (P >0.10) Obtenga las constantes y coeficientes del modelo (De la Sesión) Construya los modelos de regresión para la probabilidad acumulada por categoría

150 150 Regresión logística ordinal - Procedimiento e 1 + e Donde : K i = Constante de la categoría i b 1, b 2,... = Coeficientes del modelo acumulada hasta categoría i K i +b 1 x 1 + b 2 x = P Constantes y Coeficientes del modelo Identifique el(los) valor(es) de x que le generarán como máximo la cantidad de defectos que usted está dispuesto a aceptar en la categoría de interés [4]

151 151 Regresión logística ordinal - Procedimiento Una vez que se tienen establecidos los CTQs con los que se medirá el desempeño del producto, es necesario indicar las Especificaciones de los mismos Producto (General) Usuarios Finales Clientes Expectativas (CTSs) Tipo Importan. Producto (Específico) Parámetros de Diseño (DPs) Matriz de Diseño CTQs Especificaciones LIELSEOtra

152 152 Análisis Logit Usa razones para determinar que tanta posibilidad tiene una observación de pernecer a un grupo que a otro. Una posibilidad de 0.8 de estar en el grupo A se puede expresar como una tasa de posibilidades de 4:1 ( que es p/(1-p)), cuyo logaritmo es el logit. La probabilidad para un valor L está dado por la ecuación

153 153 Análisis Logit - ejemplo 50 estudiantes tomaron un examen, donde solo 27 pasaron. ¿Cuáles son las posibilidades de pasar? Posibilidades = P/(1-P) = 0.54/0.46 = 1.17 o 1.71:1 Un estudiante que estudia 80 horas tiene un 54.5% de pasar, ¿cuáles son las posibilidades? Posibilidades = 0.545/( ) = o 1.198:1 Logit = ln(p/(1-p)) = ln(1.189) = y despejando al Exp(b1) = exp(0.1082) = 1.11 que es la tasa de pasar a otro nivel

154 154 Análisis Probit Es similar a las pruebas de vida acelerada y análisis de sobrevivencia. Un artículo sujeto a esfuerzo puede fallar o sobrevivir. El modelo probit tiene un valor esperado de 0 y una varianza de 1. Requiere tamaños de muestra muy grandes para diferenciarse del modelo logit Los coeficientes b del modelo logit difieren del probit en con: bl = bp

155 155 VI.C.7 Pruebas de bondad de ajuste

156 156 Bondad de ajuste

157 157 Bondad de ajuste

158 158 Prueba de Bondad de ajuste para la distribución de Poisson 1. Plantear la hipótesis nula y alterna Ho: La población tiene una distribución de prob. De Poisson Ha: Caso contrario 2. Tomar una muestra aleatoria, anotar la frecuencia observada fi y calcular la media de ocurrencias 3. Calcular la frecuencia esperada de ocurrencias ei. Multiplicar el tamaño de muestra con la prob. de Poisson para cada valor de la variable aleatoria. Si hay menos de 5 combinar las categorías 4. Calcular el estadístico de prueba 5. Rechazar Ho si o si p < alfa. Con gl=k-p-1 y alfa nivel de significancia

159 159 Ejemplo: Distribución de Poisson =5 Ho: No. de clientes que llega en intervalos de 5 min. tiene una distribución de Poisson Ha: No se sigue una distribución de Poisson ClientesFrec. observadaf(x) de Poisson128*f(x) cantidad esperada o más

160 160 Ejemplo: Distribución de Poisson =5 Combinando X=0,1 y X=9, 10 o más para que la frecuencia observada sea mayor a 5 y se pueda aplicar la distribución Chi Cuadrada se tiene ClientesFrec. Observada (fi) f(x) de Poisson128*f(x) frecuencia esperada (ei) 0 o o más

161 161 Estadístico y conclusión Con los datos anteriores se calcula el estadístico Chi cuadrada que se compara con Chi Cuadrada de alfa para k-p-1 grados de libertad (K – categorías: 9, p – parámetros a estimar: 1 media). Ho se rechaza si o si p es mayor que alfa. El valor de Chi Cuadrada calculado es de y el valor Chi Cuadrada de alfa 0.05 con 2 gl. Es de no se rechaza Ho En este caso p = 0.14 > 0.05 por tanto no se rechaza Ho y se concluye que los datos siguen una distribución de Poisson

162 162 Prueba de Bondad de ajuste para la distribución Normal 1. Plantear la hipótesis nula y alterna Ho: La población tiene una distribución de prob. Normal Ha: Caso contrario 2. Tomar una muestra aleatoria, calcular la media y la desviación estándar 3. Definir K intervalos de valores de forma que la frecuencia esperada sea 5 cuando menos para cada uno (intervalos de igual probabilidad). Anotar la frecuencia observada de los valores de datos fi, en cada intervalo

163 163 Prueba de Bondad de ajuste para la distribución Normal 4. Calcular el número de ocurrencias esperado ei, para cada intervalo de valores. Multiplicar el tamaño de muestra por la probabilidad de que una variable aleatoria esté en el intervalo. 5. Calcular el estadístico de prueba 6. Rechazar Ho si o si p < alfa. Con gl=k-p-1 y alfa nivel de significancia

164 164 Prueba de Bondad de ajuste para la distribución Normal Ejemplo: datos de calificaciones: Media = 68.42; S = Calificaciones

165 165 Prueba de Bondad de ajuste para la distribución Normal Ho: la población tiene una distribución normal con media y S=10.41 Ha: Caso contrario Para una muestra de 50 con una frecuencia mínima esperada de 5 se tiene el 10% al menos por cada celda La primera celda correspondiente al 10% está en Z = con X = (Media - Z*S) = Para el área del 20%, Z = y X = y así sucesivamente

166 166 Prueba de Bondad de ajuste para la distribución Normal IntervaloFrecuencia observada (fi) Frecuencia esperada (ei) Menos de a a a a a a a a o más65 50 Se registran las frecuencias de los datos tomados de las calificaciones

167 167 Prueba de Bondad de ajuste para la distribución Normal Se determina el estadístico Chi Cuadrado = 7.2 El Valor de Chi Cuadrado de alfa = 0.10 para k – p – 1 grados de libertad. K = 10 categorías, p = 2 parámetros. Gl = 7. Chi Cuadrado es Como no se puede rechazar la hipótesis nula de normalidad de las calificaciones

168 168 Prueba de Bondad de ajuste para la distribución Multinomial 1. Enunciar la hipótesis nula y alternativa Ho: La población sigue una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las K categorías Ha: Caso contrario 2. Tomar una muestra aleatoria y anotar las frecuencias observadas fi para cada categoría 3. Suponiendo que Ho es cierta, determinar la frecuencia esperada ei, en cada categoría multiplicando la probabilidad de la categoría por el tamaño de muestra

169 169 Prueba de Bondad de ajuste para la distribución Multinomial 4. Se determina el estadístico Chi Cuadrado de prueba 5. Regla de rechazo: Si no se puede rechazar la hipótesis nula Rechazar si el valor p es menor a alfa Con alfa nivel de significancia y los grados de libertad son k-1

170 170 Prueba de Bondad de ajuste para la distribución Multinomial Ejemplo: El año pasado la participación de mercado para la empresa A fue del 30%, 50% para la empresa B y 20% para la empresa C. La empresa C hace una prueba con un nuevo producto para estimar su impacto en las preferencias del mercado. Se tomó una muestra de 200 clientes resultando preferencias de compra de: 48 para A, 98 para B y 54 para C. De acuerdo a las probabilidades esperadas, en los 200 clientes las preferencias esperadas son: A=200*0.3=60, B=200*0.5=100, C=200*0.2=40

171 171 Prueba de Bondad de ajuste para la distribución Multinomial Datos para calcular el estadístico de prueba Chi Cuadrado CategoríaProporción hipotética Frecuencia observada Frecuencia esperada Empresa A Empresa B Empresa C

172 172 Prueba de Bondad de ajuste para la distribución Multinomial Chi Cuadrado calculado = 7.34 Chi cuadrado de alfa = 0.05 con k – 1 = 2 grados de libertad = 2 es de El valor p correspondiente es de Como 7.34 es mayor a 5.99 o el valor p de es menor a alfa de 0.05 se rechaza la hipótesis nula Ho y se concluye que el nuevo producto modificará las preferencias del mercado actuales La participación de la empresa C aumenta con el nuevo producto

173 173 Prueba de Bondad de ajuste en Minitab La columna C1 – Observadas contiene las frecuencias observadas y la C2 – esperadas las frecuencias esperadas Calc > Calculator > Store result in variable ChiCuadrada Teclear en el cuadro de expresión sum((Observadas- Esperadas)**2/Esperadas) Calc > Probability distributions > Chi Square Seleccionar Cummulative probability Degrees of freedom 2 Input column ChiCuadrada; Optional Storage CumProb OK Calc > Calculator > Store results in variable p En el cuadro Expression teclear 1-CumProb OK

174 174 Prueba de Bondad de ajuste en Minitab Ejemplo: investigación de mercado ObservadasEsperadasChiCuadradaCumProbp

175 175 Prueba de Bondad de ajuste en Excel Ejemplo: investigación de mercado 1. Calcular el estadístico Chi Cuadrada con =(A2-B2)^2/B2 y Suma Chi cuadrada = El valor P es =distr.chi(7.34, 2) 3. El estadístico Chi Cuadrada de alfa es: =prueba.chi.inv(0.05,2) = Como p es menor a alfa de 0.05 se rechaza la Ho

176 176 VI.C.8 Tablas de contingencia Prueba Chi 2 ( 2)

177 177 ¿Para qué se utiliza? 1. Para probar si una serie de datos observada, concuerda con el modelo (serie esperada) de la información. 2. Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia). 2 Ho: No hay diferencia Ha: Hay diferencia Para todos los casos,

178 178 H o : La moneda es buena H a : La moneda está cargada Se lanza una moneda al aire 100 veces y que obtenemos 63 águilas y 37 soles. ¿La proporción de águilas y soles sucede por casualidad? O, se concluye que la moneda está cargada? Ejemplo 1: Chi Cuadrada( 2 )

179 179 2 c= j = 1 g Estadístico Chi Cuadrada ObservadaEsperada Aguilas Soles = = 6.76 (f o - f e ) 2 fefe ( f o ) ( f e ) Ejemplo 1: Chi Cuadrada( 2 ) fefe (f o - f e ) 2

180 180 Función de Distribución Acumulada Chi 2 con 1 grado de libertad (d.f) H o : La moneda es buena. H a : La moneda está cargada. Para un 95% de confianza antes de concluir que la moneda está cargada, se requiere que X 2 c > X 2 Crítica o que el valor de p sea Como p 0.05, se puede concluir -con un 95% de confianza - que la moneda está cargada. 2 c P( 2 c > x) p = = De tablas X 2 Crítica, (0.05, 1) = Ejemplo 1: Chi cuadrada

181 Posicionarse en una celda vacía 2. Accesar el menú de funciones con Fx 3. Seleccionar STATISTICAL o ESTADÍSTICAS, CHIINV. 4. Dar valores de probabilidad (0.05) y grados de libertad, normalmente (n - 1) para un parámetro o (# de renglones -1) * (# de columnas - 1) para el caso de tablas de proporciones. Cálculo en Excel del estadístico Chi cuadrada

182 182 Tabla de Valores Críticos Seleccionados de Chi 2

183 183 Tabla de contingencia Una tabla de clasificación de dos vías (filas y columnas) que contiene frecuencias originales, se puede analizar para determinar si las dos variables (clasificaciones) son independientes o tienen una asociación significativa. La prueba Chi Cuadrada probará si hay dependencia entre las dos clasificaciones. Además se puede calcular el coeficiente de contingencia (correlación) que en todo caso muestra la fuerza de la dependencia

184 184 Tabla de contingencia Para esta prueba se usa la prueba Chi Cuadrada donde: Entre mayor sea su valor, mayor será la diferencia de la discrepancia entre frecuencias observadas y teóricas. Esta prueba es similar a la de bondad de ajuste.

185 185 Tabla de contingencia Ejemplo: Cada una de las 15 celdas hace una contribución al estadístico Chi Cuadrado (una celda) Asumiendo Alfa = 0.1 y Gl= (reng – 1)*(Col – 1) = 4*2 = 8 Chi- Cuadrado de alfa = Como Chi Cuadrada calculada >> Chi C. Alfa, se rechaza Ho de igualdad de resultados entre negocios

186 186 Los valores observados (f o ) son los siguientes: Ho: No existen diferencias en los índices de defectos de las dos máquinas. Ha: Existen diferencias en los índices de defectos de las dos máquinas. Total El índice de defectos totales es 28 / 779 = 3.6% máquina 1 f o = 517 f o = 17 Total = 534 Partes buenas máquina 2 f o = 234 f o = 11 Total = Partes defectuosas Ejemplo 2: Chi 2 Para comparación de dos grupos; ¿son las mismas proporciones?)

187 187 Cálculo de los valores esperados Basados en este índice, los valores esperados (f e ) serían: máquina 1 f o = 751*534/779 f o = 28*534/779 Total = 534 Partes buenas máquina 2 f o = 751*245/779 f o = 28*245/779 Total = Partes defectuosas máquina Partes buenas máquina Partes defectuosas Ejemplo 2: Chi 2 Para comparación de dos grupos; ¿son las mismas proporciones?)

188 188 Nota: Chi cuadrada no podrá aplicarse en los casos donde los conteos seas menores a 5 en 20% de celdas. Si cualquiera de los conteos esperados en las celdas es menor a uno, no deberá usarse Chi 2. Si algunas celdas tienen un conteo menor a los esperados, ya sea combinando u omitiendo renglones y/o columnas, las categorías pueden ser de utilidad. Prueba de chi cuadrada: Los conteos esperados están debajo de los conteos observados Partes buenas Partes Defectuosas Total Total Chi 2 = = DF= 1; valor de p = celdas con conteos esperados menores a 5.0

189 189 Tabla de Chi 2 Tabla de valores críticos seleccionados para Chi 2

190 190 Problema: Fugas Beneficios Potenciales: $10,000 de ahorro en retrabajos, y en la reducción de tiempo de ciclo. Variación en familias a probar Operador a operador H o : No existe diferencia en los índices de defecto de los diferentes operadores H a : Existe diferencia en los índices de defecto de los diferentes operadores Máquina a máquina H o : No existe diferencia en los índices de defecto de las diferentes máquinas H a : Existe diferencia en los índices de defecto de las diferentes máquinas Tamaño de la muestra: total de oportunidades (172 piezas)

191 191 Los conteos esperados están colocados debajo de los conteos observados Con fugasSin fugas Total Total Chi 2 = = DF= (4-1)(2-1) = 3; valor P = Prueba de chi 2 (máquina a máquina)

192 192 Los conteos esperados están colocados debajo de los conteos observados. Con gotera Sin gotera Total Total Chi 2 = = DF= 5; valor P = Prueba de chi 2 (operador a operador)

193 193 ¿Qué sucede si los grupos múltiples de variación son estadísticamente significativos? (en este caso, operador a operador y máquina a máquina) Se utiliza un procedimiento denominado Coeficiente de Contingencia como clave para determinar qué grupo de variación debe investigarse primero. Coeficiente de Contingencia x 100 Chi Cuadrada N Chi 2 N CC Máquina Operador Controlador Mayor SI el tamaño de la muestra (N), es similar para los grupos. Al dividir entre N, probablemente, llevará a la misma ruta que hubiera alcanzado con sólo ver la estadística Chi 2. Sin embargo, si N tiene una variación considerable, dependiendo del grupo de variación que se investiga, el coeficiente de contingencia puede ser una herramienta valiosa para determinar la prioridad sobre qué grupo debe investigarse primero.

194 194 Con gotera Sin goteraTotal Mucho peor que lo esperado Mucho mejor que lo esperado Ahora que la información nos ha llevado a investigar a los grupos de operador a operador. ¿Qué debemos hacer ahora? Encontremos cuál de los operadores estaban fuera del estándar. ¿Era alguno de ellos notablemente peor (o mejor) que el resto? (Estos mismos operadores fueron quienes tuvieron los números más grandes de chi 2 ) ¿Qué sucede si los grupos múltiples de variación son estadísticamente significativos? (en este caso, operador a operador y máquina a máquina)

195 195 Operador a operador: = Rechace H o y acepte H a (Existe una diferencia significativa entre los operadores) Los operadores 4 y 5 están fuera del estándar: El operador 4 es notablemente peor que el resto, El operador 5 es notablemente mejor que los demás ¿Cuál es el próximo paso? Hable con todos los operadores para averiguar qué diferencias pueden existen en sus técnicas. El operador 4 no tenía experiencia en este tipo de trabajo y apenas se estaba acostumbrado a soldar este producto en particular. El operador 5 encontró un modo de mejor de hacer el ensamble, con lo cual consiguió mejorar el trabajo de soldadura, aunque esto mostraba un grado de dificultad ergonómica. Se añadió un colocador para ensamblar la parte en forma segura. (Esto también redujo el tiempo que requerían los operadores para acostumbrarse a trabajar en esta forma)

196 196 Ejercicios 1. Se quiere evaluar la habilidad de tres inspectores de rayos X en un aeropuerto para detectar artículos clave. Como prueba se pusieron radios de transistores en 90 maletas, cada inspector fue expuesto a 30 maletas conteniendo radios mezcladas entre otras que nos los contenían. Los resultados se resumen a continuación: Inspectores 123 Radios detectados Radios no detectados358 ¿Con un 95% de confianza, existe una diferencia entre los inspectores? Ho: p1 = p2 = p3; Ha: al menos una es diferente Grados de libertad = (columnas - 1) ( filas -1)

197 197 Ejercicios 1. Se quiere evaluar si hay preferencia por manejar en un carril de una autopista dependiendo de la hora del día. Los datos se resumen a continuación: Hora del día Carril1:003:005:00 Izquierdo Central Derecho81330 ¿Con un 95% de confianza, existe una diferencia entre las preferencias de los automovilistas dependiendo de la hora? Ho: P1 = P2 = P3; Ha: al menos una es diferente Grados de libertad = (columnas - 1) ( filas -1)

198 198 Coeficiente de Contingencia Coeficiente de contingencia es el grado de relación o dependencia de las clasificaciones en la tabla de contingencias es: Donde N es la frecuencia total y X es el estadístico Chi Cuadrado calculado

199 199 Coeficiente de Contingencia Para los datos del ejemplo anterior se tiene: El valor máximo de C se obtiene de:

200 200 Correlación de atributos Para tablas de orden k * k, el coeficiente de correlación, r, es : Donde 0<= r <= 1

201 201 VI.C.9 Pruebas de Hipótesis no paramétricas

202 202 Pruebas no paramétricas Las pruebas paramétricas asumen una distribución para la población, tal como la Normal Las pruebas no paramétricas no asumen una distribución específica de la población Bajo los mismos tamaños de muestra la Potencia o probabilidad de rechazar Ho cuando es falsa es mayor en las pruebas paramétricas que en las no paramétricas Una ventaja de las pruebas no paramétricas es que los resultados de la prueba son más robustos contra violación de los supuestos

203 203 Prueba de Hipótesis Variable Atributo Tablas de Contingencia de Correlación No Normal Normal Varianza Medianas Variancia Medias Prueba-F Homogeneidad de la Variación de Levene Homogeneidad de la Variación de Bartlett Correlación Prueba de signos Wilcoxon Mann- Whitney Kurskal- Wallis Prueba de Mood Friedman Pruebas de t ANOVA Correlación Regresión Muestra-1 Muestra-2 Una vía Dos vías Residuos distribuidos normalmente

204 204 Pruebas de Varianzas Homogeneidad de la varianza de Levene : Compara dos o más varianzas de muestras de la misma población. Pruebas de Variancias X 2 : Compara la variancia de una muestra con una variancia de un universo conocido. Prueba F : Compara dos varianzas de muestras. Homogeneidad de la variancia de Bartlett : Compara dos o más varianzas muestras de la misma población. Datos NormalesDatos No Normales Resumen de pruebas de Hipótesis

205 205 Pruebas de la Mediana Prueba de signos o Prueba Wilcoxon : Prueba si la mediana de la muestra es igual a un valor conocido o a un valor a alcanzar. Prueba Mann-Whitney : Prueba si dos medianas de muestras son iguales. Prueba Kruskal-Wallis : Prueba si más de dos medianas de muestras son iguales. Asume que todas las distribuciones tienen la misma forma. Prueba de la mediana de Mood : Otra prueba para más de dos medianas. Prueba más firme para los valores atípicos contenidos en la información. Prueba Friedman : Prueba si las medianas de las muestras, clasificadas bajo dos categorías, son iguales. Correlación : Prueba la relación lineal entre dos variables. Pruebas de los Promedios Prueba t de 1 muestra : Prueba si el promedio de la muestra es igual a un promedio conocido o meta conocida. Prueba t de 2 muestras : Prueba si los dos promedios de las muestras son iguales. ANOVA de un factor: Prueba si más de dos promedios de las muestras son iguales. ANOVA de dos factores : Prueba si los promedios de las muestras clasificadas bajo dos categorías, son iguales. Correlación : Prueba la relación lineal entre dos variables. Regresión : Define la relación lineal entre una variable dependiente y una independiente. (Aquí la "normalidad" se aplica al valor residual de la regresión) Datos NormalesDatos No Normales Resumen de pruebas de Hipótesis

206 206 Revise y asegúrese de que los datos no siguen una distribución normal. Desarrollar una Prueba de normalidad (para verificar realmente lo anormal. Para la prueba de Bartlet el valor de p debe ser < 0.05) Desarrollar una Prueba de Corridas (para verificar que no existen sucesos no aleatorios que puedan haber distorsionado la información) Revisar la información para detectar errores (tipográficos, etc.). Investiguar los valores atípicos. Una muestra pequeña (n < 30) proveniente de un universo normal, se mostrará algunas veces como anormal. Intentar transformar los datos. Las transformaciones comunes incluyen: - Raíz cuadrada de todos los datos - Logaritmo de todos los datos - Cuadrado de todos los datos Si la información es todavía anormal, entonces usar las herramientas no paramétricas. Acciones a tomar con datos No Normales

207 207 Promedio : Es la media aritmética de la información. Es la suma de todos los datos, dividida entre el número de datos de referencia. Mediana: Valor del punto medio de los datos, cuando se ordenan en forma ascendente (en caso de datos pares, obtener promedio). Moda : Valor que se repite con más frecuencia sobre el conjunto de datos. Ejemplo: Se cuestionó a veinte personas sobre cuánto tiempo les tomaba estar listas para ir a trabajar, en las mañanas. Sus respuestas (en minutos) se muestran más adelante. ¿Cuáles son el promedio y la mediana para esta muestra? 30, 37, 25, 35, 42, 35, 35, 47, 45, 60 39, 45, 30, 38, 35, 40, 44, 55, 47, 43 7B8. Definiciones

208 208 Un dibujo dice más que mil palabras El promedio puede estar influenciado considerablemente por los valores atípicos porque, cuando se calcula un promedio, se incluyen los valores reales de estos valores. La mediana, por otra parte, asigna la misma importancia a todas las observaciones, independientemente de los valores reales de los valores atípicos, ya que es la que sencuentra en la posición media de los valores ordenados. Promedio = Mediana = C1 Promedio Mediana

209 209 Pruebas Alternativas comúnmente usadas Pruebas para datos No normales Prueba de Corridas : Calcula la probabilidad de que un X número de puntos de referencia, esté por encima o por debajo del promedio aleatoriamente. Prueba de signos, de 1 muestra : Prueba la probabilidad de que la mediana de la muestra, sea igual al valor hipotético. Prueba Mann-Whitney : Comprueba el rango de dos muestras, por la diferencia entre dos medianas del universo. Prueba de la Mediana de Mood : Prueba para más de dos medianas del universo. Más robusta para los valores atípicos o para los errores en la información. Analogía con datos normales Prueba de Corridas (la misma prueba para ambos tipos de información) Prueba t de una muestra Prueba t de 2 muestras ANOVA de un factor

210 Considere los siguientes datos (que se muestran aquí en orden cronológico): 325, 210, 400, 72, 150, 145, 110, 507, 56, 120, 99, 144, 110, 110, 320, 290, 101, 0, 80, 500, 201, 50, 140, 80, 220, 180, 240, 309, 80 Es importante tener los datos registrados en orden cronológico. Una representación gráfica de los datos se asemeja a esto: Promedio Primera "corrida " Segunda racha" Número total de Rachas: 12 Número total de puntos > al promedio: 11 Número total de puntos < al promedio: 18 Racha: Un punto o una serie consecutiva de puntos que caen en un lado del promedio. Prueba de Rachas

211 Promedio K = Número de rachas observado = 12 Número de rachas esperado = => No se rechaza Ho 11 observaciones por encima de K; 18 por debajo La prueba es significativa en p= No se puede rechazar Ho con valor alfa = 0.05 Este es el valor p de las Prueba de Corridas Prueba de Rachas H o : Los datos son aleatorios H a :Los datos NO so aleatorios Ya que p > 0.05, no podemos rechazar la hipótesis nula. Los datos son aceptados, siendo aleatorios. Promedio

212 212 Cálculos de la Prueba de Rachas El estadístico Z cuando n > 20 se calcula como: Z = (G - MediaG) / DesvStG Con MediaG = 1 + (2n1*n2) / (n1 + n2) DesvStG = Raiz [ (2n1*n2) (2n1*n2 - n1 -n2) / (n1 + n2)^2* (n1+n2 -1) Del ejemplo anterior G = 12;n1 = 11n2 = 18 MediaG = DesStG = Z1 = ( ) / = P(Z1) = y para dos colas se tiene P(Z1) + P(Z2) = > Alfa crítico de 0.05, no rechazándose Ho Si las n1 y n2 son menores a 21, entonces se consulta la tabla de valores críticos para el número de Rachas G

213 213 Corrida con Minitab Stat > Nonparametrics > Runs Test Variable C1, Above and below the mean P > 0.05 No rechazar Ho Runs Test: C1 Runs test for C1 Runs above and below K = The observed number of runs = 12 The expected number of runs = observations above K, 18 below P-value = 0.285

214 214 Prueba de Signos de la Mediana H o : La mediana de la muestra es igual a la mediana de la hipótesis H a : Las medianas son diferentes Ejemplo (usando los datos del ejemplo anterior): Ho: Valor de la mediana = Ha: Valor de la mediana diferente de N DEBAJO IGUAL ENCIMA VALOR P MEDIANA Ya que p >0.05, no se puede rechazar la hipótesis nula. No se puede probar que la mediana real y la mediana hipotética son diferentes. En las páginas siguientes se muestra el detalle del cálculo.

215 215 Cálculos de la Prueba de Signos de la Mediana Ejemplo: Con los datos del ejemplo anterior y ordenándo de menor a mayor se tiene: n = 29, Mediana de Ho = 115 No.ValorSignoNo.ValorSignoNo.Valor Signo Con la mediana en 144. Si el valor contra el cual se desea probar es 115, entonces hay 12 valores por debajo de el (-) y 17 valores por arriba (+).

216 216 Cálculos de la Prueba de Signos de la Mediana El estadístico X es el el número de veces que ocurre el signo menos frecuente, en este caso el 12 (-). Cómo n 25, se calcula el estadístico Z para la prueba de signos con: Z = [ (Y + 0.5) - (0.5*n) ]/ 0.5 n En este caso Z1 = y P(Z1) = para la cola izquierda en forma similar P(Z2) para la cola derecha, por lo que la probabilidad total es >> 0.05 del criterio de rechazo. Si n hubiera sido < 25 entonces se hubiera consultado la tabla de valores críticos para la prueba de signo.

217 217 Prueba de Signos de la Mediana Bueno, veamos una gráfica de la información ¿Es esto correcto?¿144 podría ser igual a 115? Después de todo, tal vez esto SEA lo correcto.

218 218 Corrida en Minitab Stat > Nonparametrics > 1-Sample sign Variable C1 Confidence interval 95% Test Median 115 Alternative Not equal Como P > 0.05 no se rechaza Ho y la mediana es 115 Sign Test for Median: Signos Sign test of median = versus not = N Below Equal Above P Median Signos

219 219 Prueba de Signos de la Mediana Para observaciones pareadas Calificaciones de amas de casa a dos limpiadores de ventanas: Ho: p = 0.5 no hay preferencia de A sobre B Ha: p<>0.5 AmaLimpiador B CasaA ¿Hay evidencia que indique cierta preferencia de las amas de casa por lo limpiadores?

220 220 Prueba de Signos de la Mediana Producto B FamiliaA ¿Hay evidencia que indique cierta preferencia por un Producto A o B? Media = 0.5*n Desv. Estand.= 0.5*raiz(n) Zc = (Y – media) / Desv. Estánd. Rechazar Ho si Zc >

221 221 Prueba de Signos de la Mediana Como Zc < Zexcel no se rechaza Ho o Como p value = > No hay evidencia suficiente de que los Consumidores prefieran al producto B Media = 0.5*11 = 5.5 Desv. Estand.= 0.5*raiz(n) = 1.67 Para Zc = (8 – 5.5) / 1.67 = Zexcel = 1.96 para alfa/2 = 0.025

222 222 Prueba rango con signo de Wilconox Es la alternativa no paramétrica de la prueba paramétrica de muestras pareadas Ejemplo: HO: Las poblaciones son idénticas Ha: Caso contrario Trabaja dor Método 1 Método 2 Diferen cias Abs(difere n.)Rango Rango c/signo Eliminar T = 44

223 223 Prueba rango con signo de Wilconox Distribución muestral T para poblaciones idénticas Se aproxima a la distribución normal para n >= 10 En este caso n = pares eliminando las que son iguales con dif. = 0 para el trabajador 8. = raiz(10 x 11 x 21/6) = Z = (T – )/ = 44/19.62 = 2.24 Z alfa/2 = Z0.025 = 1.96 Como Zc = 2.24 > Z0.025 se rechaza Ho, los métodos son diferentes

224 224 Prueba en Minitab para prueba de mediana con Wilconox File> Open worksheet > Exh_Stat Stat > Nonparametrics > 1-Sample Wilconox Variables C1 Test Median 77 Altenative Not equal Achievement Wilcoxon Signed Rank Test: Achievement Test of median = versus median not = for Wilcoxon Estimated N Test Statistic P Median Achievement Ho: Mediana = 77 Ha: Mediana <> 77 Como P de >> alfa de 0.05 no se rechaza Ho

225 225 Prueba de Mann-Whitney Se llevó a cabo un estudio que analiza la frecuencia del pulso en dos grupos de personas de edades diferentes, después de diez minutos de ejercicios aeróbicos. Los datos resultantes se muestran a continuación. Edad C Edad C ¿Tuvieron diferencias significativas las frecuencias de pulso de ambos grupos?

226 226 Prueba de Mann-Whitney Ordenando los datos y asignándoles el (rango) de su posición relativa se tiene (promediando posiciones para el caso de que sean iguales): Edad C1 (7) 135 (8.5) 136 (11) 140 (13.5) 144 (15) 148 (16) 150 (17) 154 (18) 160 n1 = 10 Ta = Edad C2 (1) 124 (2) 126 (3.5) 128 (5) 130 (6) 132 (8.5) 136 (11)140 (15)166 n2 = 9 Tb = 55.5

227 227 Prueba de Mann-Whitney Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales Ha: Las distribuciones de frecuencias relativas poblacionales no son idénticas Ho: 1 = 2Ha: 1 2 1, 2 = Medianas de las poblaciones Ordenando los datos y asignándoles su posición relativa se tiene: Ua = n1*n2 + (n1) * (n1 + 1) /2 - Ta Ub = n1*n2 + (n2) * (n2 + 1) /2 - Tb Ua + Ub = n1 * n2 Ua = = 14.5 P(Ua) = Ub = = 79.5 El menor de los dos es Ua. Para alfa = 0.05 el valor de Uo = 25 Como Ua < 25 se rechaza la Hipótesis Ho de que las medianas son iguales. Dado que p < 0.05, rechazamos la hipótesis nula. Estadísticamente existe una diferencia significativa entre los dos grupos de edad.

228 228 Prueba de Mann-Whitney Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales Ha: Las distribuciones de frecuencias relativas poblacionales no son idénticas Ua = 14.5 Ub = 79.5 Utilizando el estadístico Z y la distribución normal se tiene: Z = [ (U - (n1* n2 / 2 ) / Raiz (n1 * n2 * (n1 + n2 + 1) / 12) Con Ua y Ub se tiene: Za = ( ) / = P(Z) = similar a la anterior Zb = ( ) / = 2.81P(total) = 2 * = menor = 0.05 El valor crítico de Z para alfa por ser prueba de dos colas, es Como Za > Zcrítico se rechaza la Hipótesis Ho de que las medianas son iguales. Dado que p < 0.05, rechazamos la hipótesis nula. Estadísticamente existe una diferencia significativa entre los dos grupos de edad.

229 Prueba de Mann-Whitney años de edad años de edad Diferencias entre los encabezados de los renglones y las columnas De esta manera, se calcula la mediana de todas estas diferencias, denominada "punto estimado". Este punto estimado es una aproximación de la diferencia entre las medianas de los dos grupos (ETA1 y ETA2). Una vez ajustados los "enlaces" (eventos de un mismo valor en ambos grupos de información), Minitab usa este punto estimado para calcular el valor p.

230 230 Corrida en Minitab Stat > Nonparametrics > Mann Whitney First Sample C1 Second Sample C2 Conf. Level 95% Alternative Not equal Mann-Whitney Test and CI: C1, C2 N Median P>0.05 C Se rechaza Ho C Point estimate for ETA1-ETA2 is Percent CI for ETA1-ETA2 is (4.01,20.00) W = Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at The test is significant at (adjusted for ties)

231 231 Prueba de Kruskal Wallis Ordenando los datos de ventas y asignándoles el (rango) de su posición relativa se tiene (promediando posiciones para el caso de que sean iguales): Zona 1 (15.5) 147 (17.5) 17.5 (9) 128 (19) 162 (12) 135 (10) 132 (22) 181 (13) 138 n1 = 8 Ta = 118 Zona 2 (17.5) 160 (14) 140 (21) 173 (4) 113 (1) 85 (7) 120 (25) 285 (5) 117 (11) 133 (6) 119 n2 = 10 Tb = Zona 3 (24) 215 (8) 127 (2) 98 (15.5) 127 (23) 184 (3) 109 (20) 169 n3 = 7 Tc = 95.5 N = n1 + n2 + n3 = 25

232 232 Prueba de Kruskal Wallis Ho: Las poblaciones A, B y C son iguales Ha: Las poblaciones no son iguales Ho: 1 = 2 = 3 Ha: 1 2 3; 1, 2, 3 = Medianas de las poblaciones Calculando el valor del estadístico H se tiene: H = [ 12 /( N* ( N + 1)) ] * [ Ta 2 / n1 + Tb 2 / n2 + Tc 2 / n3 ] - 3 * ( N +1 ) H = * ( ) - 78 = Se compara con el estadístico 2 para = 0.05 y G.l. = k - 1 = 3-1 = 1 (k muestras) 2 crítico = (válido siempre que las muestras tengan al menos 5 elementos) Como H < 2 crítico, no se rechaza la Hipótesis Ho: Afirmando que no hay diferencia entre las poblaciones

233 233 Corrida en Minitab Stat > Nonparametrics > Kruskal Wallis Response C1 Factor C2 OK Kruskal-Wallis Test: Datos versus Factor Kruskal-Wallis Test on Datos Factor N Median Ave Rank Z Zona Zona Zona Overall P > 0.05 H = 1.08 DF = 2 P = No se rechaza Ho H = 1.09 DF = 2 P = (adjusted for ties)

234 234 Prueba de Medianas de Mood Realiza prueba de hipótesis de igualdad de medias en un diseño de una vía. La prueba es robusta contra Outliers y errores en datos y es adecuada para análisis preliminares Determina si K grupos independientes han sido extraidas de la misma población con medianas iguales o poblaciones con formas similares Con base en la gran mediana, anotar un signo positivo si la observación excede la mediana o un signo menos si es menor. Los valores que coincidan se reparten en los grupos Hacer una tabla de contingencia K x 2 con las frecuencias de signos más y menos en cada grupo K

235 235 Prueba de Medianas de Mood Se determina el estadístico Chi Cuadrada con: Probar Ho: Todas las medianas son iguales Ha: Al menos una mediana es diferente Se compara Chi Cuadrada calculada con Chi Cuadrada de alfa para 0.05 y (reng – 1)*(Col – 1) grados de libertad

236 236 Corrida con Minitab Se les da a 179 participantes una conferencia con dibujos para ilustrar el tema. Después se les da la prueba OTIS que mide la habilidad intelectual. Los participantes se clasificaron por nivel educativo 0-No prof., 1-Prof., 2-Prepa Ho: h1 = h2 = h3 Ha: no todas las medianas son iguales File > Open Worksheet > Cartoon.mtw Stat > Nonparametrics > Moods Median Test Response Otis Factor ED Ok

237 237 Corrida con Minitab Mood Median Test: Otis versus ED Mood median test for Otis P>0.05 Chi-Square = DF = 2 P = Se rechaza Ho Individual 95.0% CIs ED N Median Q3-Q (-----*-----) (------*------) (----*----) Overall median = 107.0

238 238 Diseños factoriales aleatorias bloqueados de Friedman Esta prueba es una alternativa al ANOVA de dos vías, es una generalización de las pruebas pareadas con signo. La aditividad es requerida para para estimar los efectos de los tratamientos Ho: Los tratamientos no tienen un efecto significativo Ha: Algunos tratamientos tienen efecto significativo

239 239 Diseños factoriales aleatorias bloqueados de Friedman Resultados de salida: Se muestra el estadístico de prueba con distribución Chi Cuadrada aproximada con gl = Tratamientos – 1. Si hay observaciones parecidas en uno o más bloques, se usa el rango promedio y se muestra el estadístico corregido La mediana estimada es la gran mediana más el efecto del tratamiento

240 240 Diseños factoriales aleatorias bloqueados de Friedman Ejemplo: Se evalúa el efecto del tratamiento de una droga en la actividad enzimática con tres niveles, probado en cuatro animales Open the worksheet EXH_STAT.MTW. Stat > Nonparametrics > Friedman. Response, seleccionar EnzymeActivity. En Treatment, seleccionar Therapy. En Blocks, seleccionar Litter. Click OK.

241 241 Diseños factoriales aleatorias bloqueados de Friedman Datos: EnzymeActivityTherapyLitter

242 242 Diseños factoriales aleatorias bloqueados de Friedman Resultados: Friedman Test: EnzymeActivity versus Therapy blocked by Litter S = 2.38 DF = 2 P = No rechazar Ho S = 3.80 DF = 2 P = (adjusted for ties) Sum of Therapy N Est Median Ranks Grand median =

243 243 Diseños factoriales aleatorias bloqueados de Friedman Resultados: El estadístico de prueba S tiene un valor P de sin ajustar para observaciones en cero y para el valor ajustado. Por tanto no hay evidencia suficiente para rechazar Ho Las medianas estimadas asociadas con los tratamientos son la gran mediana más los efectos estimados de los tratamientos. El estadístico de prueba se determina con base a los rangos en cada bloque y totales

244 244 Diseños factoriales aleatorias bloqueados de Friedman Resultados:

245 245 Diseños factoriales aleatorias bloqueados de Friedman Resultados:

246 246 Diseños factoriales aleatorias bloqueados de Friedman Resultados:

247 247 Prueba de igualdad de varianzas de Levene Se usa para probar la hipótesis nula de que las varianzas de k múltiples poblacionales son iguales Las igualdad de varianzas en las muestras se denomina homogeneidad de varianzas La prueba de Levene es menos sensible que la prueba de Bartlett o la prueba F cuando se apartan de la normalidad La prueba de Bartlett tiene un mejor desempeño para la distribución normal o aproximadamente normal

248 248 Prueba de igualdad de varianzas de Levene Para dos muestras el procedimiento es como sigue: Determinar la media Calcular la desviación de cada observación respecto a la media Z es el cuadrado de las desviaciones respecto a la media Aplicar la prueba t a las dos medias de los datos

249 249 Prueba de igualdad de Varianzas-Minitab Se estudian tamaños de papa inyectando con bacterias y sujetas a diferentes temperaturas. Antes del ANOVA se verifica la igualdad de varianzas Stat > ANOVA > Test for equal variances Response Rot Factors Temp Oxigen Confidence level 95% RotTempOxygen

250 250 Resultados

251 251 Resultados Test for Equal Variances: Rot versus Temp, Oxygen 95% Bonferroni confidence intervals for standard deviations Temp Oxygen N Lower StDev Upper Bartlett's Test (normal distribution) Test statistic = 2.71, p-value = P>0.05 no rechazar Ho Levene's Test (any continuous distribution) Test statistic = 0.37, p-value = 0.858

252 252 Prueba de la concordancia del Coeficiente de Kendall El coeficiente expresa el grado de asociación entre las calificaciones múltiples realizadas por un evaluador Ho: Las variables son independientes Ha: Las variables están asociadas Kendall usa la información relacionada con las calificaciones relativas y es sensible a la seriedad de mala clasificación Por ejemplo para K = jueces N = Muestras = 10 Rango medio = 220 / 22 S = 1066 Gl = n-1 = 9 Chi Cuadrada crítica = X ,9 = 21.67

253 253 Prueba de la concordancia del Coeficiente de Kendall El Estadístico Chi Cuadrada calculado es: Como Chi Cuadrada de alfa es menor que la calculada, los cuatro jueces están asociados significativamente. Constituyen un panel uniforme. No quiere decir que estén en lo correcto, solo que responden de manera uniforme a los estímulos

254 254 El coeficiente de correlación de rangos de Spearman (r s ) El coeficiente de correlación es una medida de la asociación que requiere que ambas variables sean medidas en al menos una escala ordinal de manera que las muestras u observaciones a ser analizadas pueden ser clasificadas en rangos en dos series ordenadas Ho: Las variables son independientes Ha: Las variables están asociadas Para el ejemplo anterior si N = 10, el coeficiente es:

255 255 Coeficiente de correlación de rangos para monotonía de preferencias Una persona interesada en adquirir un TV asigna rangos a modelos de cada uno de 8 fabricantes PreferenciaPrecio (rango) Fab (1) (5) (3) (4) (8) (7) (2) (6) Di cuadrada Rango Di

256 256 Coeficiente de correlación de rangos para monotonía de preferencias Ho: No existe asociación entre los rangos Ha: Existe asociación entre los rangos o es positiva o negativa El coeficiente de correlación de rangos de Spearman es: Rs = 1 – 6*suma(di cuadrada) / (n(n cuadrada – 1)) En este caso: Rs = 1 – 6(144)/(8*(64-1) = R0 se determina de la tabla de Valores críticos del coeficiente de correlación del coeficiente de correlación de rangos de Spearman Rt = Por tanto si hay asociación significativa en las preferencias

257 257 Tabla de constantes

258 258 Corrida con Minitab Para la corrida en Minitab primero se deben determinar los rangos en forma manual para las variables X y Y. Stat > Basic statistics > Correlation Variables Preferencia Precio Fabric ante Prefe- renciaPrecio Correlations: Preferencia, Precio Pearson correlation of Preferencia and Precio = P-Value = 0.047

259 259 Ejemplo con Minitab Se estudia la relación entre colágeno y Proline en pacientes con cirrosis Stat > Basic statistics > Correlation Variables Colágeno Proline PacienteColágenoProline Correlations: Colageno, Proline Pearson correlation of Colageno and Proline = P-Value = 0.002

260 260 Resumen de pruebas no paramétricas Prueba de signos de 1 muestra: Prueba la igualdad de la mediana a un valor y determina el intervalo de confianza Prueba de Wilconox de 1 muestra: Prueba la igualdad de la mediana a un valor con rangos con signo y determina el intervalo de confianza Comparación de dos medianas poblacionales de Mann Whitney: Prueba la igualdad de las medianas y determina el intervalo de confianza

261 261 Resumen de pruebas no paramétricas Comparación de igualdad de medianas poblacionales de Kruskal Wallis: Prueba la igualdad de las medianas en un diseño de una vía y determina el intervalo de confianza Comparación de medianas poblacionales de Mood: Prueba la igualdad de medianas con un diseño de una vía

262 262

263 263

264 264 Salidas de la Fase de Análisis Causas raíz validadas Guía de oportunidades de mejora


Descargar ppt "1 Programa de certificación de Black Belts VI. Lean Seis Sigma – Análisis B Segunda Parte P. Reyes / Abril de 2010."

Presentaciones similares


Anuncios Google