La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Programa de certificación de Black Belts

Presentaciones similares


Presentación del tema: "Programa de certificación de Black Belts"— Transcripción de la presentación:

1 Programa de certificación de Black Belts
Lean Seis Sigma Programa de certificación de Black Belts VI. Lean Seis Sigma – Análisis B Segunda Parte P. Reyes / Abril de 2010

2 VI.F Métodos de análisis adicionales

3 Métodos adicionales de análisis
1. Análisis de brecha 2. Análisis de causa raíz 3. Análisis del Muda

4 VI.F.1 Análisis de brecha

5 El análisis de brecha (Gap Analysis) es una herramienta de evaluación para comparar el desempeño actual de la organización, a un desempeño potencial deseado. Identifica la diferencia de lo que es y lo que debería ser

6 Análisis de brecha Se pueden redirigir los esfuerzos a objetivos como:
Permanecer en el negocio Mantener o incrementar la participación del mercado Mejorar el clima laboral Igualar o exceder a Benchmarks Igualar o exceder a la competencia Reducir tiempos de ciclo Lograr certificaciones Mejorar la productividad Mejorar los niveles de calidad

7 Análisis de brecha Se requieren tres categorías de información
¿Dónde estamos? ¿Dónde queremos ir? ¿Cómo vamos a medir los resultados?

8 Planeación de escenarios
Al elaborar planes estratégicos, los directivos pueden confiarse o ser orgullosos de aceptar cambios. Por lo que se sugiere considerar escenarios del mejor y del peor caso, para evitar errores en la toma de decisiones Los escenarios permiten imaginar el desempeño futuro de la organización ante riesgos, para tomar las mejores decisiones y atender estos eventos. Aunque algunos elementos sean desconocidos

9 Planeación de escenarios
El proceso de planeación es como sigue: Seleccionar al personal que pueda dar muchas perspectivas Desarrollar una lista de cambios percibidos, sociales, técnicos y económicos Agrupar estas percepciones en patrones relacionados Desarrollar una lista de las mejores percepciones (prioridades)

10 Planeación de escenarios
El proceso de planeación es como sigue: Desarrollar un escenario grueso del futuro basado en estas prioridades Determinar como afectan los escenarios a la organización Determinar los cursos de acción potenciales a tomar Monitorear, evaluar, y revisar los escenarios

11 Planeación de escenarios
Por lo común se perciben de 6 – 10 amenazas u oportunidades en 2 o 3 escenarios desarrollados. Evitar las siguientes trampas: No utilizar un facilitador experimentado Considerar escenarios como pronósticos Hacer escenarios simplistas Limitar el impacto global de los escenarios

12 Planeación de escenarios
Evitar las siguientes trampas…..: No incluir a un equipo directivo en el proceso Tratar los escenarios solo como actividad informativa Limitar el estímulo imaginativo en el diseño del escenario No desarrollar escenarios para área de impacto clave del negocio

13 Planeación Hoshin Es una herramienta de ejecución, usada para organizar y desplegar planes estratégicos Hoshin traduce la visión de la empresa en resultados medibles dramáticos y rupturas estratégicas Hoshin se enfoca a identificar los pocos logros vitales de ruptura

14 Planeación Hoshin Tiene seis objetivos:
Alinear las metas organizacionales Enfocarse en las pocas brechas vitales estratégicas Trabajar con otros para cerrar las brechas Especificar los métodos para lograr los objetivos Hacer visible el enlace entre planes locales Mejora continua del proceso de planeación

15 Otras técnicas de análisis clave
Benchmarking Análisis FODA Análisis PEST Las cinco fuerzas competitivas de Porter

16 Evaluación organizacional
Análisis funcional con datos de colección: Entrevistas cara a cara Selección de muestra apropiada Entradas de grupo de enfoque Observaciones de visitas a la planta Datos colectados de fuentes de la industria Se divide a la organización en áreas funcionales clave Liderazgo, prácticas de negocio, análisis financiero, mercadotecnia, gestión de la calidad, diseño y desarrollo, manufactura, salud y seguridad, etc…

17 Evaluación organizacional
Se deben analizar los resultados y presentarlos a la dirección, quien debe promover e implementar planes de acción claros Normalmente el consultor colecta y resume la información en categorías principales para su revisión por la dirección. Quienes deben generar e implementar las soluciones y guiar al éxito

18 Métricas organizacionales
Se establecen metas de desempeño organizacional y sus métricas en las áreas de: Utilidades Tiempos de ciclo Recursos Respuestas del mercado Por cada meta organizacional mayor deben desarrollarse métricas, con unidades y métodos de medición.

19 Métricas organizacionales
Para los anteriores, las métricas pueden ser: Utilidades a corto y largo plazo Valor de acciones, inversión de capital, costos personales, comparaciones competitivas, ROI, ventas$ Tiempos de ciclo Tiempos de ciclo actuales Benchmarks internos Benchmarks externos Reducción en tiempos de ciclo

20 Métricas organizacionales
Recursos No. De proyectos de mejora, ROI de proyectos, estudios de capacidad de procesos, reducciones de variabilidad, costos de calidad con relación a una base, porcentaje de defectos con relación a alguna base Respuestas del mercado Encuestas con clientes Análisis de devoluciones Desarrollo de nuevos productos Retención de clientes Pérdidas con clientes Tasas de cortesías e instalaciones

21 Métricas organizacionales
Las métricas permiten medir los avances en relación a las metas organizacionales De acuerdo a Juran se debe tomar en cuenta lo siguiente: Las métricas deben tener un significado estándar Deben apoyar el proceso de toma de decisiones Deben proporcionar información valiosa Debe ser fácil de instalar Si son valiosas, deben usarse en todo Las métricas se basan en la retroalimentación con base en clientes, proveedores, o internas

22 VI.F.2 Análisis de causa raíz

23 Análisis de causa raíz Un equipo tiene la responsabilidad de determinar la causa raíz de una deficiencia y corregirla. Pueden tomar varios pasos: Situación (presa con fuga) Acción inmediata (desahogarla) Acción intermedia (reparar la presa) Acción en la causa raíz (identificar que causó la fuga para evitar su recurrencia y reconstruir la presa)

24 Análisis de causa raíz Se pueden utilizar las siguientes herramientas:
Herramientas subjetivas: Preguntar por qué cinco veces, tormenta de ideas, análisis de flujo de proceso, PHVA, grupo nominal, observación de operación, diagrama de causa efecto, técnicas de consenso, seis sombreros de pensamiento, equipos de trabajo, FMEA, FTA

25 Análisis de causa raíz Se pueden utilizar las siguientes herramientas:
Herramientas analíticas: Colección y análisis de datos Análisis de Pareto, análisis de regresión, hoja de verificación Análisis de matriz de datos Análisis de capacidad de procesos, división de variación Subgrupos de datos, experimentos simples, DOE Pruebas analíticas, cartas de control

26 Análisis de causa raíz Ante una acción correctiva permanente, la dirección debe determinar si: El análisis de causa raíz ha identificado el impacto completo del problema La acción correctiva es efectiva para eliminar o prevenir la recurrencia La acción correctiva es realista y sostenible

27 Los 5 Por qués Se hace la pregunta ¿Por qué? Cinco veces
¿Por qué? Nos faltaron partes por máquina dañada ¿Por qué? La máquina no ha tenido mantenimiento en los últimos 3 meses ¿Por qué? El departamento de mantenimiento se ha reducido a 6 personas de 8 ¿Por qué? Se pasó del presupuesto, les quitaron el tiempo extra y dos personas ¿Por qué? La empresa no ha tenido los resultados esperados y el director ha hecho recortes para salvar la situación, teme por su puesto

28 5Ws y 1H El método de las 5Ws y 1H se resume al preguntar ¿quién?, ¿qué?, ¿cuándo?, ¿dónde?, ¿por qué? Y ¿cómo?. Pueden usarse las ramas del diagrama de causa efecto

29 Diagrama de causa efecto
Rompe el problema en partes más pequeñas Muestra muchas causas potenciales gráficamente Muestra como interactúan las causas Sigue las reglas de la tormenta de ideas Las sesiones tienen tres partes: Tormenta de ideas Dar prioridades (identificar las tres causas principales) Desarrollo de un plan de acción

30 Diagrama de Pareto Sirve para identificar problemas u oportunidades prioritarias o mayores De acuerdo a Juran permite identificar “los pocos vitales” de los “muchos triviales” El principio de Pareto sugiere que unas cuantas categorías de problemas (20% aprox.) presentan la mayor oportunidad para la mejora (80% aprox.)

31 Método de las 8 disciplinas - Ford
El método de Ford para el análisis de causa raíz es: D1. Establecer el equipo D2. Describir el problema D3. Desarrollar una acción de contención D4. Identificar la causa raíz D5. Desarrollar alternativas de solución D6. Implementar una acción correctiva permanente D7. Prevenir la recurrencia D8. Reconocer al equipo y las contribuciones individuales

32 Análisis de árbol de falla - FTA
FTA es un método sistemático deductivo, para definir un evento singular específico e indeseable, y determinar todas las posibles razones (fallas) que pueden hacer que ocurra el evento Se utiliza el las primeras fases del diseño como herramienta para impulsar modificaciones iniciales de diseño.

33 Análisis de árbol de falla - FTA
Otras áreas de su aplicación son: Análisis funcional de sistemas complejos Evaluación de requerimientos de seguridad, confiabilidad, defectos de diseño, riesgos de peligro, acciones correctivas, simplificación de mantenimiento y detección de falla, eliminación lógica de causas de falla

34 Análisis de árbol de falla - FTA
Se prefiere el FTA en vez del FMEA cuando: La seguridad el personal es importante Se pueden identificar un número pequeño de eventos superiores Hay alto potencial de falla El problema es cuantificar la evaluación del riesgo La funcionalidad del producto es altamente compleja El producto no es reaprables

35 Análisis de árbol de falla - FTA
Se prefiere el FMEA en vez del FTA cuando: Los eventos superiores no se pueden definir explícitamente Son factibles múltiples perfiles potencialmente exitosos La identificación de todos los modos de falla es importante La funcionalidad del producto tiene poca intervención externa

36 Análisis de árbol de falla - FTA
Símbolos de compuertas lógicas para determinar la confiabilidad del sistema. Hay símbolos de eventos y símbolos de compuertas Símbolos de eventos Evento superior, falla a nivel sistema o evento indeseable Evento básico, evento falla de más bajo nivel a estudiar Evento de falla, evento de falla de bajo nivel. Puede recibir entradas o proporcionar salidas a una compuerta lógica

37 Análisis de árbol de falla - FTA
Símbolos de compuertas lógicas “AND”. El evento de salida ocurre solo Si ocurren todos los eventos de entrada Simultaneamente “OR”. El evento de salida ocurre si Ocurre alguno de los eventos de La entrada

38 Análisis de árbol de falla - FTA
Ejemplo: se asume que falla el sistema superior

39 Análisis de árbol de falla - FTA
La probabilidad de falla del sistema es 5.02%. Se indica que el teclado es prioritario (0.20), después la CPU (0.015) y el monitor (0.015)

40 VI.F.3 Análisis del Muda

41 Análisis de Muda Las actividades que no agregan valor se clasifican como Muda, de acuerdo a Imai son: Sobreproducción Inventarios Reparaciones / rechazos Movimientos Transportes Re – Procesos Esperas

42 Sobreproducción Se produce más en cierto momento, por:
Producir más de lo necesario por el siguiente proceso Producir antes de lo requerido por el siguiente proceso Producir más rápido de lo requerido por el siguiente proceso Sus consecuencias son: Espacio extra en las instalaciones del cliente Materias primas adicionales en uso Utilización de energéticos y transportes adicionales Costos de programación adicionales

43 Inventario en exceso Las partes, materias primas, inventario en proceso, refacciones y productos terminados forman el inventario, el inventario es Muda ya que requiere: Espacio en piso, Transporte, Montacargas Sistemas de transportadores Interés sobre el costo de los materiales Puede verse afectado por: El polvo, deterioro, obsolescencia Humedad (oxidación), daño durante el manejo

44 Inventario en exceso Las partes, materias primas, inventario en proceso, refacciones y productos terminados forman el inventario, el inventario es Muda ya que requiere: Espacio en piso, Transporte, Montacargas Sistemas de transportadores Interés sobre el costo de los materiales Puede verse afectado por: El polvo, deterioro, obsolescencia Humedad (oxidación), daño durante el manejo

45 Reparaciones / defectos
Las reparaciones o el retrabajo de partes defectivas significa un segundo intento de producirlas bien. Se rompe el Takt Time Puede haber desperdicio de materiales o productos no recuperable Si hay defectos, no puede implementarse el flujo de una pieza Los cambios de diseño también son Muda

46 Movimientos Los movimientos adicionales del personal son Muda. Caminar mucho, cargar pesado, agacharse, estirarse mucho, repetir movimientos, etc. El lugar de trabajo debe diseñarse ergonómicamente, analizando cada estación de trabajo La ergonomía puede causar daños y producción perdida

47 Movimientos Algunas reglas de la ergonomía incluyen:
Enfatizar la seguridad todas las veces Adecuar el empelado a la tarea Cambiar el lugar de trabajo para que se adecue al empleado Mantener posiciones neutrales del cuerpo Rediseñar las herramientas para reducir esfuerzo y daños Variar las tareas con rotación de puestos Hacer que la máquina sirva al ser humano

48 Reprocesos Consiste de pasos adicionales en el proceso de manufactura, por ejemplo: Remoción de rebabas Maquinado de partes mal moldeadas Agregar procesos de manejo adicionales Realizar procesos de inspección Repetir cambios al producto innecesarios Mantener copias adicionales de información

49 Transportes Todo transporte es Muda excepto la entrega al cliente. Incluye: Uso de montacargas Uso de transportadores Uso de movedores de pallets y camiones Puede ser causado por: Deficiente distribución de planta o de celdas Tiempos de espera largos, áreas grandes de almacenaje, o problemas de programación

50 Esperas Ocurre cuando un operador está listo para realizar su operación, pero permanece ocioso, por falla de máquina, falta de partes, paros de línea, etc. El Muda de espera puede ser por: Operadores ociosos Fallas de maquinaria Tiempos de ajuste y preparación largos Tareas no programadas a tiempo Flujo de materiales en lotes Juntas largas e innecesarias

51 Mudas adicionales Otros mudas adicionales a los 7 desperdicios son:
Recursos mal utilizados Recursos poco utilizados Actividades de conteo Búsqueda de herramientas o partes Sistemas múltiples Manos múltiples Aprobaciones innecesarias Fallas de máquinas Envío de producto defectivo al cliente o mal servicio

52 VI.B.3 Regresión lineal múltiple

53 Regresión múltiple Cuando se usa más de una variable independiente para predecir los valores de una variable dependiente, el proceso se llama análisis de regresión múltiple, incluye el uso de ecuaciones lineales. Se asume que los errores u tienen las características siguientes: Tienen media cero y varianza común 2. Son estadísticamente independientes. Están distribuidos en forma normal.

54 Regresión múltiple Estimación de los parámetros del modelo
Se trata de minimizar los errores cuadráticos en: El modelo de regresión múltiple en forma matricial es: Y = X  +  = [1 : D]  +  Y es un vector N x 1. X es una matriz de orden N x (k + 1), donde la 1ª. columna es 1’s.  es un vector de orden (k + 1) x 1.  es un vector de orden N x 1. D es la matriz de Xij con i = 1, 2, ..., N; j = 1, 2, , k

55 Regresión múltiple Estimación de los parámetros del modelo:
b = (X’X)-1 X’Y El vector de valores ajustados se puede expresar como: La varianza del modelo se estima como:

56 Tamaño de muestra Tomar 5 observaciones para cada una de las variables independientes, si esta razón es menor de5 a 1, se tiene el riesgo de “sobreajustar” el modelo Un mejor nivel deseable es tomar 15 a 20 observaciones por cada variable independiente

57 Ejemplo de regresión múltiple
Un embotellador está analizando las rutas de servicio de máquinas dispensadoras, está interesado en predecir la cantidad de tiempo requerida por el chofer para surtir las máquinas en el local (Y). La actividad de servicio incluye llenar la máquina con refrescos y un mantenimiento menor. Se tienen como variables el número de envases con que llena la máquina (X1) y la distancia que tiene que caminar (X2).

58 Ejemplo de regresión múltiple

59 Ejemplo de regresión múltiple Solución matricial

60 Ejemplo de regresión múltiple Solución matricial

61 Ejemplo de regresión múltiple Solución matricial

62 Ejemplo de regresión múltiple Solución matricial
Intervalo de confianza para Beta 1 Por tanto el intervalo de confianza para el 95% es:  1 

63 Ejemplo de regresión múltiple Solución matricial
El embotellador desea construir un intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo: X1 = 8 envases y cuya distancia es X2 = 275 pies. La varianza de la Y0 estimada es (tomando M8=inv(X’X) :

64 Ejemplo de regresión múltiple Solución matricial
El intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo es para 95% de nivel de confianza: Que se reduce a:  Y0 

65 Ejemplo de regresión múltiple Solución matricial
El análisis de varianza es:

66 Ejemplo de regresión múltiple Solución matricial
El comportamiento de los residuos es como sigue:

67 Multicolinealidad La multicolinealidad implica una dependencia cercana entre regresores (columnas de la matriz X ), de tal forma que si hay una dependencia lineal exacta hará que la matriz X’X sea singular. La presencia de dependencias cercanamente lineales impactan dramáticamente en la habilidad para estimar los coeficientes de regresión. La varianza de los coeficientes de la regresión son inflados debido a la multicolinealidad. Es evidente por los valores diferentes de cero que no están en la diagonal principal de X’X. Que son correlaciones simples entre los regresores.

68 Multicolinealidad Una prueba fácil de probar si hay multicolinealidad entre dos variables es que su coeficiente de correlación sea mayor a 0.7 Los elementos de la diagonal principal de la matriz X’X se denominan Factores de inflación de varianza (VIFs) y se usan como un diagnóstico importante de multicolinealidad. Para el componente j – ésimo se tiene: Si es mayor a 10 implica que se tienen serios problemas de multicolinealidad.

69 Análisis de los residuos
Los residuos graficados vs la Y estimada, pueden mostrar diferentes patrones indicando adecuación o no adecuación del modelo: Gráfica de residuos aleatorios cuya suma es cero (null plot) indica modelo adecuado Gráfica de residuos mostrando una no linealidad curvilínea indica necesidad de transformar las variables Si los residuos se van abriendo indica que la varianza muestra heteroestacidad y se requiere transformar las variables. Se puede probar con la prueba de Levene de homogeneidad de varianzas

70 Escalamiento de residuos
En algunos casos es difícil hacer comparaciones directas entre los coeficientes de la regresión debido a que la magnitud de bj refleja las unidades de medición del regresor Xj. Por ejemplo: Para facilitarla visualización de residuos ante grandes diferencias en los coeficientes, se sugiere estandarizar o estudentizar los residuos

71 Escalamiento de residuos
Residuos estandarizados Se obtienen dividiendo cada residuo entre la desviación estándar de los residuos Después de la estandarización, los residuos tienen una media de 0 y desviación estándar de 1 Con más de 50 datos siguen a la distribución t, de manera que si exceden a 1.96 (límite para alfa 0.05) indica significancia estadística y son “outliers”

72 Escalamiento de residuos
Residuos estudentizados Son similares a los residuos donde se elimina una observación y se predice su valor, pero además se elimina la i-ésima observación en el cálculo de la desviación estándar usada para estandarizar la í-ésima observación Puede identificar observaciones que tienen una gran influencia pero que no son detectadas por los residuos estandarizados H = X (X’X)-1X’ es la matriz sombrero o “hat matriz”.

73 Escalamiento de residuos
El estadístico PRESS (Prediction Error Sum of Squares) es una medida similar a la R2 en la regresión. Difiere en que se estiman n-1 modelos de regresión. En cada modelo se omite una observación en la estimación del modelo de regresión y entonces se predice el valor de la observación omitida con el modelo estimado. El residuo iésimo será: El residuo PRESS es la suma al cuadrado de los residuos individuales e indica una medida de la capacidad de predicción

74 Gráficas parciales de regresión
Para mostrar el impacto de casos individuales es más efectiva la gráfica de regresión parcial. Un caso “outlier” impacta en la pendiente de la ecuación de regresión (y su coeficiente). Una comparación visual de la gráfica de regresión parcial con y sin la observación muestra la influencia de la observación El coeficiente de correlación parcial es la correlación de la variable independiente Xi la variable dependiente Y cuando se han eliminado de ambos Xi y Y La correlación semiparcial refleja la correlación entre las variables independiente y dependiente removiendo el efecto Xi

75 Matriz sombrero Los puntos de influencia son observaciones substancialmente diferentes de las observaciones remanentes en una o más variables independientes Contiene valores (sombrero en su diagonal) para cada observación que representa influencia. Representa los efectos combinados de todos las variables independientes para cada caso

76 Matriz sombrero Los valores en la diagonal de la matriz sombrero miden dos aspectos: Para cada observación miden la distancia de la observación al centro de la media de todas las observaciones de las variables independientes Valores altos en la diagonal indica que la observación tiene mucho peso para la predicción del valor de la variable dependiente, minimizando su residuo El rango de valores es de 0 a 1, con media p/n, p es el número de predictores y n es el tamaño de muestra. Valores límite se encuentran en 2p/n y 3p/n

77 Distancia de Mahalanobis
D2 es una medida comparable a los valores sombrero (hat values) que considera sólo la distancia de una observación del valor medio de las variables independientes. Es otra forma de identificar “outliers” La significancia estadística de la distancia de Malahanobis se puede hacer a partir de tablas del texto: Barnett, V., Outliers in Statistical Data, 2nd. Edition, Nueva York, Wiley, 2984

78 Influencia en coeficientes individuales
El impacto de eliminar una observación simple en cada uno de los coeficientes de la regresión múltiple se muestra con la DFBETA y su versión estandarizada SDFBETA. Se sugiere aplicar como límites ±1.0 o ±2 para tamaños de muestra pequeños y ±√n para muestras medias y grandes La distancia de Cook (Di) captura el impacto de una observación: La dimensión del cambio en los valores pronosticados cuando se omite la observación y la distancia de las otras observaciones, el límite es 1 o 4/(n-k-1)

79 Influencia en coeficientes individuales
La medida COVRATIO estima el efecto de la observación en la eficiencia del proceso, en sus errores estándar de los coeficientes de la regresión. Considera a todos los coeficientes colectivamente. El límite puede ser establecido en 1 ±3p/n, los valores mayores al límite hacen el proceso más eficiente y los menores más ineficiente La medida SDFFIT es el grado en que cambian los valores ajustados o pronosticados cuando el caso se elimina. El valor límite es 2*raíz((k+1)/(n-k-1))

80 Ejemplo de regresión múltiple Solución con Excel y Minitab

81 Ejemplo de Regresión Múltiple
Cat. (US News) GMAT Salario Inicial ($) % Aceptación Stanford Harvard Penn (Wharton) MIT (Sloan) Chicago Northwestern Columbia Dartmouth Duke Berkeley Virginia Michigan NYU Carnegie Mellon Yale U.N.C UCLA Texas-Austin Indiana Cornell Rochester Ohio State Emory Purdue Maryland

82 Interpretación de Resultados de Excel- Regresión Multiple
SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations 25 ANOVA df SS MS F Significance F Regression E E-07 Residual E Total E+09 Coefficients Standard t Stat P-value Lower 95% U pper 95% Error Intercept X Variable X Variable X Variable

83 Resultados de Excel- Regresión sólo con sólo X1
SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations 25 ANOVA df SS MS F Significance F Regression E E E-08 Residual E Total E+09 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept E X Variable E Con sólo X1, el Modelo se simplifica enormemente poca importancia práctica se pierde en R2 (ajustada)

84 El Modelo se simplifica enormemente..…poca
Reducción del Modelo Vuelva a correr la regresión usando la categoría US News, como el único agente de predicción (“predictor”) La ecuación de regresión es: y = x “Predictor” Coef Desv. Estándar T p Constante x S = R2 = 73.3% R2 (ajustada) = 72.1% Análisis de Variancia Fuente DF SS MS F p Regresión Error Total El Modelo se simplifica enormemente..…poca importancia práctica se pierde en R2 (ajustada)

85 HeatFlux Insolation East South North
Corrida en Minitab Se introducen los datos en varias columnas C1 a C5 incluyendo la respuesta Y (heatflux) y las variables predictoras X’s (North, South, East) HeatFlux Insolation East South North

86 Corrida en Minitab Utilzar el archivo de ejemplo Exh_regr.mtw
Opción: Stat > Regression > Regression Para regresión lineal indicar la columna de respuesta Y (Score2) y X (Score1) En Regresión lienal en opciones se puede poner un valor Xo para predecir la respuesta e intervalos. Las gráficas se obtienen Stat > Regression > Regression > Fitted line Plots Para regresión múltiple Y (heatflux) y las columnas de los predictores (north, south, east)

87 Resultados de la regresión lineal
The regression equation is Score2 = Score1 Predictor Coef SE Coef T P Constant Score S = R-Sq = 95.7% R-Sq(adj) = 95.1% Analysis of Variance Source DF SS MS F P Regression Residual Error Total Predicted Values for New Observations New Obs Fit SE Fit % CI % PI ( , ) ( , ) New Obs Score1

88 Resultados de la regresión lineal

89 Resultados de la regresión Múltiple
The regression equation is HeatFlux = North South East Predictor Coef SE Coef T P Constant North South East S = R-Sq = 87.4% R-Sq(adj) = 85.9% Analysis of Variance Source DF SS MS F P Regression Residual Error Total Source DF Seq SS North South East

90 Resumen de la Regresión
La regresión sólo puede utilizarse con información de variables continuas. Los residuos deben distribuirse normalmente con media cero. Importancia práctica: (R2). Importancia estadística: (valores p) La regresión puede usarse con un “predictor” X o más, para una respuesta dada Reduzca el modelo de regresión cuando sea posible, sin perder mucha importancia práctica

91 VI.B.4 Herramientas multivariadas

92 Herramientas multivariadas
1. Introducción 2. Análisis de componentes principales 3. Análisis factorial 4. Análisis discriminante 5. MANOVA

93 Introducción En el análisis multivariado se incluyen dos o más variables dependientes Y1, Y2, etc. Consideradas simultáneamente para las variables independientes X1, X2, …., Xn Normalmente se resuelven con herramientas computacionales tales como Minitab y SPSS. Entre las herramientas principales se encuentran: Componentes principales, análisis factorial, análisis discriminante, análisis de conglomerados, análisis canónico, MANOVA

94 Análisis de componentes principales
El análisis (PCA) y el análisis factorial (FA) se usan para encontrar patrones de correlación entre muchas variables posibles y subconjuntos de datos Busca reducirlas a un menor número de componentes o factores que representen la mayor parte de la varianza. Normalmente se requieren al menos 100 observaciones y cinco observaciones por variable

95 Análisis de componentes principales
Pasos de análisis en Minitab Se usa una matriz de correlación para determinar la relación entre componentes Las matrices definen cantidades como eigenvalores y eigenvectores Se suman los eigenvalores y se calculan las proporciones de cada componente Se identifican los PC1, PC2, … que explican la mayor parte de la varianza Se puede hacer un diagrama de Pareto como apoyo

96 Ejemplo: Alimentos en Europa

97 Corrida en Minitab 2 Stat > Multivariate > Principal components
3    En Variables, X1, X2, X3, X4, X6, X7, X8, X9 4    En Number of factors to extract, 3. Seleccionar Correlation Matrix 5    Click Graphs y seleccionar Scree Plot, Score plot for first 2 components Loading plot for first 2 components 8    Click Storage e indicar las columnas donde se guarden los coeficientes y los valores Z (scores) Coef1 Coef 2 y Z1 Z2 9. Click OK en cada uno de los cuadros de diálogo

98 Ejemplo: Alimentos en Europa
Dos componentes exceden El eigenvalor de ref. de 1

99 Ejemplo: Alimentos en Europa

100 Ejemplo: factores principales para crecimiento tecnológico en la comunidad
Factores independientes Miles de trabajadores en alta tecnología Cultura emprendedora (inicios por año) Interacciones con la universidad (proyectos por año) Clases de creatividad (porcentaje de profesionales) Cantidad de capital de aventura (millones de dólares)

101 Matriz de correlación del ejemplo

102 Resultados La suma de los eigenvalores es aprox. cinco
La proporción de la varianza explicada por el componente 1 es de 71.7% PC1 y PC2 explican el 89.2% de la varianza, por tanto son los componentes principales

103 Análisis factorial Es una técnica de reducción de variables para identificar factores que expliquen la variación, aunque se reiere un juicio subjetivo. Las variables de salida están relacionadas linealmente con las variables de entrada. Las variables deben ser medibles y simétricas. Debe haber cuatro o más factores de entrada para cada variable independiente

104 Análisis factorial Se especifican un cierto número de factores comunes
El análisis factorial se hace en dos etapas: Extracción de factores, para identificar los factores principales para un estudio posterior Rotación de factores, para hacerlos más significativos

105 Corrida con Minitab 2 Stat > Multivariate > Factor Analysis.
3    En Variables, X1, X2, X3, X4, X6, X7, X8, X9 4    En Number of factors to extract, 4. En Method of Extraction, seleccionar Principal components 6    En Type of Rotation, seleccionar Varimax. 7    Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot. Click Results y seleccionar Sort loadings. Seleccionar Storage e indicar columnas para ponderaciones, coeficientes, Z’s, eigenvalores, etc. Click OK en cada uno de los cuadros de d

106 Ejemplo

107 Ejemplo:

108 Análisis discriminante
Si se tiene una muestra con grupos conocidos, el análisis discriminante clasifica las observaciones o atributos en dos o más grupos Puede utilizarse como herramienta predictiva o descriptiva Las variables deben ser multivariadamente normales, con la misma varianza y covarianza poblacional entre variables dependientes, y las muestras exhiben independencia

109 Ejemplo de actividades en países

110 Corrida con Minitab 2    Stat > Multivariate > Discriminant Analysis. 3    En Groups, poner SalmonOrigin. 4    En Predictors, poner Freshwater Marine. Click OK.

111 Corrida con Minitab

112 Análisis de conglomerados

113 Análisis de conglomerados
Se usa para determinar agrupaciones o clasificaciones de un conjunto de datos Las personas se pueden agrupar por IQ, padres, hábitos de estudio, etc. Se trata de dar sentido a grandes cantidades de datos de cuestionarios, ecnuestas, etc.

114 Ejemplo Suponer que un estudio de mercado trata de determinar segmentos de mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2), medidas del 0 al 10 en 7 personas (A-G). Variables V1 V2 A 3 2 B 4 5 C 7 D E 6 F G

115 Corrida en Minitab Stat > Multivariate Análisis > Cluster Observations Distance Measured Euclidean Seleccionar Show Dendogram OK

116 Análisis de correlación canónico
Prueba la hipótesis de que los efectos pueden tener causas múltiples y de que las causas pueden tener efectos múltiples (Hotelling 1935) Es como una regresión múltiple para determinar la correlación entre dos conjuntos de combinaciones lineales, cada conjunto puede tener varias variables relacionadas. La relación de un conjunto de variables dependientes a un conjunto de variables independientes forma combinaciones lineales

117 Análisis de correlación canónico
Se usan los más altos valores de correlación para los conjuntos. Los pares de combinaciones lineales se denominan variates canónicas con correlaciones canónicas (Rc con valor mayor a 0.3) Por ejemplo se quiere determinar si hay una correlación entre las características de un ingeniero industrial y las habilidades requeridas en la descripción de puesto del mismo ingeniero.

118 Ejemplo: Statgraphics - coches

119 Ejemplo: Statgraphics - coches

120 Ejemplo: Statgraphics - coches

121 Ejemplo: Statgraphics - coches

122 Ejemplo: Statgraphics - coches
La primera correlación de 0.94 tiene correlaciones canónicas asociadas: U1 = Engine Size Horsepower Length Wheelbase Width Rear Seat Weight V1 = Mid Price – * GPM Highway GPM City U Turn Space Las variables están estandarizadas. Parece haber una relación primaria entre peso del vehículo y las millas por galón de rendimiento.

123 MANOVA (Análisis de varianza múltiple)
Es un modelo para analizar la relación entre una o más variables independientes y dos o más variables dependientes Prueba si hay diferencias significativas en las medias de grupos de una combinanción de respuestas Y. Los datos deben ser normales, con covarianza homogenea y observaciones independientes

124 MANOVA (Análisis de varianza múltiple)

125 Diferencias de ANOVA y MANOVA

126 Ejemplo: Extrusión de película plástica
Se realiza un estudio para determinar las condiciones óptimas para extruir película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco veces en cada combinación de dos factores – tasa de extrusión y cantidad de aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA balanceado para probar la igualdad de las medias.

127 Ejemplo: Extrusión de película plástica

128 Ejemplo: Extrusión de película plástica
1    Abrir el archivo EXH_MVAR.MTW. 2    Seleccionar Stat > ANOVA > Balanced MANOVA. 3    En Responses, poner Tear Gloss Opacity. 4    En Model, poner Extrusion | Additive. 5    Click Results. En Display of Results, seleccionar Matrices (hypothesis, error, partial correlations) y Eigen analysis. 6    Click OK en cada cuadro de diálogo.

129 Ejemplo

130 Ejemplo: Extrusión de película plástica
Las matrices SSCP evalúan la contribución a la variabilidad de manera similar a la suma de cuadrados en la ANOVA univariada. Las correlaciones parciales entre Tear y Gloss son pequeñas. Como la estructura de las correlaciones es débil, se pueden realizar análisis univariados de ANOVA para cada una de las respuestas.

131 VI.B.5 Análisis de datos por atributos

132 Análisis de datos por atributos
Si los CTQ’s son variables continuas, se usa la regresión, dependiendo de la naturaleza de la característica crítica para el cliente (CTS’s) como éste la expresa: CTS HERRAMIENTA Nominal (Verde, Rojo, azul) Regresión Logística Nominal Atributo (Pasa/No pasa) Regresión Logística Binaria Ordinal (1, 2, 3, 4, 5) Regresión Logística Ordinal

133 Análisis de datos por atributos
El análisis de datos por atributos se organiza en valores, categorías o grupos dicotómicos Las decisiones incluyen: si / no, pasa / no pasa, bueno / malo, pobre/justo/bueno/superior/excelente, etc. Entre los modelos no lineales de regresión usados se tienen: regresión logística, regresión logit y regresión probit

134 Análisis de datos por atributos
Regresión logística Relaciona variables independientes categóricas a una variable dependiente (Y). Minitab incluye los modelos binario, ordinal y nominal Regresión logit Es subconjunto del modelo log-lineal. Tiene solo una variable dependiente, usa determinaciones de probabilidad o tasa de probabilidad

135 Análisis de datos por atributos
Regresión probit Es similar a la prueba de vida acelerada, la unidad se somete a esfuerzo con la respuesta pasa/falla, bueno o malo. Es una respuesta binaria en un tiempo de falla futuro

136 Regresión logística o binaria
En caso de información cualitativa es necesario traducir las preferencias del cliente expresadas como atributos a un intervalo de valores aceptables de variables (Especificaciones).

137 Regresión logística o binaria
Es similar a la regresión múltiple excepto que la respuesta es binaria (si/no, bueno/malo, etc.) Sus coeficientes se determinan por el método de máxima verosimilitud Su función tiene forma de “S”, con valores máximos de Cero y Uno. Yi = 0, 1

138 Regresión logística o binaria
La probabilidad de que el resultado esté en cierta categoría es: El método de cálculo del coeficiente b es diferente que en la regresión lineal Los coeficientes se determinan con la relación sig.:

139 Regresión logística Condiciones:
Hay solo dos resultados posibles Hay solo un resultado por evento Los resultados son independientes estadísticamente Todos los predictores relevantes están en el modelo Es mutuamente exclusivo y colectivamente exhaustivo Los tamaños de muestra son mayores que para la regresión múltiple Los efectos positivos se obtienen con b1>1 y los negativos con b1 e 0 a 1

140 Regresión logística Relación con ajuste pobre Relación con buen ajuste

141 Regresión logística - Procedimiento
Definir el atributo a “traducir” (“y”) Definir la variable apropiada para el atributo (“x”) Definir el modelo matemático a probar Determinar los defectos que está dispuesto a aceptar Recolecte información de “x” vs “y”. Asigne 1 si falla y 0 si es aceptable. Analice la información mediante Regresión Logística Binaria

142 Regresión logística- Procedimiento

143 Regresión logística - Procedimiento
Coeficientes del modelo P-Value de Deviance Observe el P-Value de “Deviance” en la Sesión, debe de ser grande (P >0.10) Obtenga los coeficientes del modelo (De la Sesión)

144 Regresión logística - Procedimiento
Construya el modelo de regresión para la probabilidad de falla estará dado por : Identifique el(los) valor(es) de “x” que le generarán como máximo la cantidad de defectos que usted está dispuesto a aceptar [4] Donde : b0, b1, ... = Coeficientes del modelo P(Falla) = b0+b1x1+.... e 1 + e

145 Ejemplo de riesgo de paro cardiaco
Para Fuma, el coeficiente negativo de y la tasa de posibilidades de 0.30, indica que quien fuma, tiende a tener una tasa de pulso más alta que los sujetos que no fuman. Si los sujetos tienen el mismo peso, las posibilidades de que los fumadores tengan un pulso bajo sea sólo del 30% de las posibilidades de que los no fumadores tengan un pulso bajo.

146 Regresión logística ordinal
Cuando la respuesta ó CTS es de tipo ordinal (Varias categorías de respuesta como “totalmente de acuerdo”, “de acuerdo”, “en desacuerdo” y “totalmente en desacuerdo”) y el Factor ó CTQ es de naturaleza continua, entonces, para definir Especificaciones, la herramienta a utilizar es la Regresión Logística Ordinal.

147 Regresión logística ordinal - Procedimiento
Defina la variable de respuesta a “traducir” (“y” ó CTS) Defina el CTQ (“x”) ó variable a relacionar con el CTS Defina el modelo matemático a probar Determine los defectos que está dispuesto a aceptar en la categoría de interés Recolecte información de “x” vs “y” Analice la información mediante Regresión Logística Ordinal

148 Regresión logística ordinal - Procedimiento
Stat > Regression > Ordinal Logistic Regression Seleccione la respuesta (“y”) Seleccione los términos que estima tiene el modelo [3] Constantes y Coeficientes del modelo

149 Regresión logística ordinal - Procedimiento
Observe el P-Value de “Deviance” en la Sesión, debe de ser grande (P >0.10) Obtenga las constantes y coeficientes del modelo (De la Sesión) Construya los modelos de regresión para la probabilidad acumulada por categoría

150 Regresión logística ordinal - Procedimiento
Donde : Ki = Constante de la categoría i b1, b2, ... = Coeficientes del modelo acumulada hasta categoría i Ki+b1x1+ b2x2.... = P Constantes y Coeficientes del modelo Identifique el(los) valor(es) de “x” que le generarán como máximo la cantidad de defectos que usted está dispuesto a aceptar en la categoría de interés [4]

151 Regresión logística ordinal - Procedimiento
Una vez que se tienen establecidos los CTQs con los que se medirá el desempeño del producto, es necesario indicar las Especificaciones de los mismos Producto (General) Usuarios Finales Clientes Expectativas (CTS’s) Tipo Importan. (Específico) Parámetros de Diseño (DPs) Matriz de Diseño CTQs Especificaciones LIE LSE Otra

152 Análisis Logit Usa razones para determinar que tanta posibilidad tiene una observación de pernecer a un grupo que a otro. Una posibilidad de 0.8 de estar en el grupo A se puede expresar como una tasa de posibilidades de 4:1 ( que es p/(1-p)), cuyo logaritmo es el logit. La probabilidad para un valor L está dado por la ecuación

153 Análisis Logit - ejemplo
50 estudiantes tomaron un examen, donde solo 27 pasaron. ¿Cuáles son las posibilidades de pasar? Posibilidades = P/(1-P) = 0.54/0.46 = 1.17 o 1.71:1 Un estudiante que estudia 80 horas tiene un 54.5% de pasar, ¿cuáles son las posibilidades? Posibilidades = 0.545/( ) = o 1.198:1 Logit = ln(p/(1-p)) = ln(1.189) = y despejando al Exp(b1) = exp(0.1082) = 1.11 que es la tasa de pasar a otro nivel

154 Análisis Probit Es similar a las pruebas de vida acelerada y análisis de sobrevivencia. Un artículo sujeto a esfuerzo puede fallar o sobrevivir. El modelo probit tiene un valor esperado de 0 y una varianza de 1. Requiere tamaños de muestra muy grandes para diferenciarse del modelo logit Los coeficientes b del modelo logit difieren del probit en con: bl = bp

155 VI.C.7 Pruebas de bondad de ajuste

156 Bondad de ajuste

157 Bondad de ajuste

158 Prueba de Bondad de ajuste para la distribución de Poisson
1. Plantear la hipótesis nula y alterna Ho: La población tiene una distribución de prob. De Poisson Ha: Caso contrario 2. Tomar una muestra aleatoria, anotar la frecuencia observada fi y calcular la media de ocurrencias  3. Calcular la frecuencia esperada de ocurrencias ei. Multiplicar el tamaño de muestra con la prob. de Poisson para cada valor de la variable aleatoria. Si hay menos de 5 combinar las categorías 4. Calcular el estadístico de prueba 5. Rechazar Ho si o si p < alfa. Con gl=k-p-1 y alfa nivel de significancia

159 Ejemplo: Distribución de Poisson =5
Ho: No. de clientes que llega en intervalos de 5 min. tiene una distribución de Poisson Ha: No se sigue una distribución de Poisson Clientes Frec. observada f(x) de Poisson 128*f(x) cantidad esperada 2 0.0067 0.8576 1 8 0.0337 4.3136 10 0.0842 3 12 0.1404 4 18 0.1755 5 22 6 0.1462 7 16 0.1044 0.0653 8.3584 9 0.0363 4.6464 10 o más 0.0318 4.0704

160 Ejemplo: Distribución de Poisson =5
Combinando X=0,1 y X=9, 10 o más para que la frecuencia observada sea mayor a 5 y se pueda aplicar la distribución Chi Cuadrada se tiene Clientes Frec. Observada (fi) f(x) de Poisson 128*f(x) frecuencia esperada (ei) 0 o 1 10 5.1712 2 0.0842 3 12 0.1404 4 18 0.1755 5 22 6 0.1462 7 16 0.1044 8 0.0653 8.3584 9 o más 8.7168

161 Estadístico y conclusión
Con los datos anteriores se calcula el estadístico Chi cuadrada que se compara con Chi Cuadrada de alfa para k-p-1 grados de libertad (K – categorías: 9, p – parámetros a estimar: 1 media). Ho se rechaza si o si p es mayor que alfa. El valor de Chi Cuadrada calculado es de y el valor Chi Cuadrada de alfa 0.05 con 2 gl. Es de no se rechaza Ho En este caso p = 0.14 > 0.05 por tanto no se rechaza Ho y se concluye que los datos siguen una distribución de Poisson

162 Prueba de Bondad de ajuste para la distribución Normal
1. Plantear la hipótesis nula y alterna Ho: La población tiene una distribución de prob. Normal Ha: Caso contrario 2. Tomar una muestra aleatoria, calcular la media  y la desviación estándar 3. Definir K intervalos de valores de forma que la frecuencia esperada sea 5 cuando menos para cada uno (intervalos de igual probabilidad). Anotar la frecuencia observada de los valores de datos fi, en cada intervalo

163 Prueba de Bondad de ajuste para la distribución Normal
4. Calcular el número de ocurrencias esperado ei, para cada intervalo de valores. Multiplicar el tamaño de muestra por la probabilidad de que una variable aleatoria esté en el intervalo. 5. Calcular el estadístico de prueba 6. Rechazar Ho si o si p < alfa. Con gl=k-p-1 y alfa nivel de significancia

164 Prueba de Bondad de ajuste para la distribución Normal
Ejemplo: datos de calificaciones: Media = 68.42; S = 10.41 Calificaciones 71 66 61 65 54 93 60 86 70 73 55 63 56 62 76 82 79 68 53 58 85 80 64 90 69 77 74 84

165 Prueba de Bondad de ajuste para la distribución Normal
Ho: la población tiene una distribución normal con media y S= Ha: Caso contrario Para una muestra de 50 con una frecuencia mínima esperada de 5 se tiene el 10% al menos por cada celda La primera celda correspondiente al 10% está en Z = con X = (Media - Z*S) = 55.10 Para el área del 20%, Z = y X = 59.68 y así sucesivamente

166 Prueba de Bondad de ajuste para la distribución Normal
Intervalo Frecuencia observada (fi) Frecuencia esperada (ei) Menos de 55.10 5 55.10 a 59.68 59.68 a 63.01 9 63.01 a 65.82 6 65.82 a 68.42 2 68.42 a 71.02 71.02 a 73.83 73.83 a 77.16 77.16 a 81.74 81.74 o más 50 Se registran las frecuencias de los datos tomados de las calificaciones

167 Prueba de Bondad de ajuste para la distribución Normal
Se determina el estadístico Chi Cuadrado = 7.2 El Valor de Chi Cuadrado de alfa = 0.10 para k – p – 1 grados de libertad. K = 10 categorías, p = 2 parámetros. Gl = 7. Chi Cuadrado es Como no se puede rechazar la hipótesis nula de normalidad de las calificaciones

168 Prueba de Bondad de ajuste para la distribución Multinomial
1. Enunciar la hipótesis nula y alternativa Ho: La población sigue una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las K categorías Ha: Caso contrario 2. Tomar una muestra aleatoria y anotar las frecuencias observadas fi para cada categoría 3. Suponiendo que Ho es cierta, determinar la frecuencia esperada ei, en cada categoría multiplicando la probabilidad de la categoría por el tamaño de muestra

169 Prueba de Bondad de ajuste para la distribución Multinomial
4. Se determina el estadístico Chi Cuadrado de prueba 5. Regla de rechazo: Si no se puede rechazar la hipótesis nula Rechazar si el valor p es menor a alfa Con alfa nivel de significancia y los grados de libertad son k-1

170 Prueba de Bondad de ajuste para la distribución Multinomial
Ejemplo: El año pasado la participación de mercado para la empresa A fue del 30%, 50% para la empresa B y 20% para la empresa C. La empresa C hace una prueba con un nuevo producto para estimar su impacto en las preferencias del mercado. Se tomó una muestra de 200 clientes resultando preferencias de compra de: 48 para A, 98 para B y 54 para C. De acuerdo a las probabilidades esperadas, en los 200 clientes las preferencias esperadas son: A=200*0.3=60, B=200*0.5=100, C=200*0.2=40

171 Prueba de Bondad de ajuste para la distribución Multinomial
Datos para calcular el estadístico de prueba Chi Cuadrado Categoría Proporción hipotética Frecuencia observada Frecuencia esperada Empresa A 0.3 48 60 Empresa B 0.5 98 100 Empresa C 0.2 54 40

172 Prueba de Bondad de ajuste para la distribución Multinomial
Chi Cuadrado calculado = 7.34 Chi cuadrado de alfa = 0.05 con k – 1 = 2 grados de libertad = 2 es de El valor p correspondiente es de Como 7.34 es mayor a 5.99 o el valor p de es menor a alfa de 0.05 se rechaza la hipótesis nula Ho y se concluye que el nuevo producto modificará las preferencias del mercado actuales La participación de la empresa C aumenta con el nuevo producto

173 Prueba de Bondad de ajuste en Minitab
La columna C1 – Observadas contiene las frecuencias observadas y la C2 – esperadas las frecuencias esperadas Calc > Calculator > Store result in variable ChiCuadrada Teclear en el cuadro de expresión sum((Observadas-Esperadas)**2/Esperadas) Calc > Probability distributions > Chi Square Seleccionar Cummulative probability Degrees of freedom 2 Input column ChiCuadrada; Optional Storage CumProb OK Calc > Calculator > Store results in variable p En el cuadro Expression teclear 1-CumProb OK

174 Prueba de Bondad de ajuste en Minitab
Ejemplo: investigación de mercado Observadas Esperadas ChiCuadrada CumProb p 48 60 7.34 98 100 54 40

175 Prueba de Bondad de ajuste en Excel
Ejemplo: investigación de mercado 1. Calcular el estadístico Chi Cuadrada con =(A2-B2)^2/B2 y Suma Chi cuadrada = 7.34 2. El valor P es =distr.chi(7.34, 2) 3. El estadístico Chi Cuadrada de alfa es: =prueba.chi.inv(0.05,2) = 5.99 4. Como p es menor a alfa de 0.05 se rechaza la Ho

176 VI.C.8 Tablas de contingencia
Prueba Chi2 (2) Revisado por Mónica Yris el 4 de Marzo de 1999. Se cambió el diseño, se revisó ortografía y parcialmente se cotejo la traducción. Inglés- Español. Si se hicieron algunos cambios en la traducción y en algunas partes donde no se había traducido porque lo dejaron en ingles. 1

177 ¿Para qué se utiliza? 1. Para probar si una serie de datos observada, concuerda con el modelo (serie esperada) de la información. 2. Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia). Para todos los casos, Ho: No hay diferencia Ha: Hay diferencia Aún si no se ajusta la información al modelo esperado de la prueba chi2 . Debido a que su información es atribuida, usted no puede utilizar la distribución normal para el modelo. Se requiere un número muy grande de muestras para obtener una prueba significativa (>30). En la mayoría de los casos, la Hipótesis de Nulidad no “se Diferencia” y existe la Alternativa como “una diferencia existente”. En el acercamiento de Seis Sigma, podemos: Empezar con un Problema Práctico Convertir el Problema práctico a un Problema estadístico Resolver el Problema estadístico y obtener una Solución estadística Convertir nuevamente la solución estadística a una solución práctica. 2 3

178 Ejemplo 1: Chi Cuadrada( 2 )
Se lanza una moneda al aire 100 veces y que obtenemos 63 águilas y 37 soles. ¿La proporción de águilas y soles sucede por casualidad? O, se concluye que la moneda está “cargada”? Pregunte a la clase ¿quién piensa que la moneda es “genuina” y por qué y qué nivel de confianza tienen para estar en lo correcto? Ahora, pregunte quién piensa que la moneda está “cargada”, por qué y que tan confiados están en su respuesta. El punto es que no tenemos una confianza en nuestra eleccíón (“genuina” o “cargada”), hasta que hagamos uso de las estadísitcas. En este ejemplo, realizamos los cálculos para Chi 2 “a mano”, siguiendo las siguientes ecuaciones estadísticas. Si aparecen valores conocidos, esta sería una forma de calcular Chi2. Ho: La moneda es buena Ha: La moneda “está cargada” 4

179 Ejemplo 1: Chi Cuadrada( 2 )
(fo - fe)2 Observada Esperada fe ( fo ) ( fe ) Aguilas 63 50 3.38 Soles 37 50 3.38  2 =  2 = 6.76 Estadístico Chi Cuadrada g Pregunte a la clase ¿quién piensa que la moneda es “genuina” y por qué y qué nivel de confianza tienen para estar en lo correcto? Ahora, pregunte quién piensa que la moneda está “cargada”, por qué y que tan confiados están en su respuesta. El punto es que no tenemos una confianza en nuestra eleccíón (“genuina” o “cargada”), hasta que hagamos uso de las estadísitcas. En este ejemplo, realizamos los cálculos para Chi 2 “a mano”, siguiendo las siguientes ecuaciones estadísticas. Si aparecen valores conocidos, esta sería una forma de calcular Chi2. fe (fo - fe)2 2 c= j = 1 4

180 Ejemplo 1: Chi cuadrada Función de Distribución Acumulada Chi2 con 1 grado de libertad (d.f) 2c P(2c > x) p = = De tablas X2Crítica, (0.05, 1) = Ho: La moneda es buena. Ha: La moneda está “cargada”. Para un 95% de confianza antes de concluir que la moneda “está cargada”, se requiere que X2c > X2Crítica o que el valor de p sea  0.05. Como p  0.05, se puede concluir -con un 95% de confianza - que la moneda “está cargada”. 7

181 Cálculo en Excel del estadístico Chi cuadrada
1. Posicionarse en una celda vacía 2. Accesar el menú de funciones con Fx 3. Seleccionar STATISTICAL o ESTADÍSTICAS, CHIINV. 4. Dar valores de probabilidad (0.05) y grados de libertad, normalmente (n - 1) para un parámetro o (# de renglones -1) * (# de columnas - 1) para el caso de tablas de proporciones. 7

182 Tabla de Valores Críticos Seleccionados de Chi2

183 Tabla de contingencia Una tabla de clasificación de dos vías (filas y columnas) que contiene frecuencias originales, se puede analizar para determinar si las dos variables (clasificaciones) son independientes o tienen una asociación significativa. La prueba Chi Cuadrada probará si hay dependencia entre las dos clasificaciones. Además se puede calcular el coeficiente de contingencia (correlación) que en todo caso muestra la fuerza de la dependencia

184 Tabla de contingencia Para esta prueba se usa la prueba Chi Cuadrada donde: Entre mayor sea su valor, mayor será la diferencia de la discrepancia entre frecuencias observadas y teóricas. Esta prueba es similar a la de bondad de ajuste.

185 Tabla de contingencia Ejemplo: Cada una de las 15 celdas hace una contribución al estadístico Chi Cuadrado (una celda) Asumiendo Alfa = 0.1 y Gl= (reng – 1)*(Col – 1) = 4*2 = 8 Chi-Cuadrado de alfa = 20.09 Como Chi Cuadrada calculada >> Chi C. Alfa, se rechaza Ho de igualdad de resultados entre negocios

186 Ejemplo 2: Chi2 Para comparación de dos grupos; ¿son las mismas proporciones?)
Ho: No existen diferencias en los índices de defectos de las dos máquinas. Ha: Existen diferencias en los índices de defectos de las dos máquinas. Los valores observados (fo) son los siguientes: Partes buenas Partes defectuosas máquina fo = fo = Total = 534 máquina fo = fo = Total = 245 779 Este es un ejemplo fácil para mostrarle cómo calcular el valor esperado cuando usted tiene un modelo más complejo y no supiera cuál es la probabilidad. Total El índice de defectos totales es 28 / 779 = 3.6% 9

187 Ejemplo 2: Chi2 Para comparación de dos grupos; ¿son las mismas proporciones?)
Cálculo de los valores esperados Partes buenas Partes defectuosas máquina fo = 751*534/ fo = 28*534/ Total = 534 máquina fo = 751*245/ fo = 28*245/ Total = 245 779 Basados en este índice, los valores esperados (fe) serían: Este es un ejemplo fácil para mostrarle cómo calcular el valor esperado cuando usted tiene un modelo más complejo y no supiera cuál es la probabilidad. máquina Partes buenas máquina Partes defectuosas 9

188 Prueba de chi cuadrada:
Los conteos esperados están debajo de los conteos observados Partes buenas Partes Defectuosas Total Total Chi2 = = DF= 1; valor de p = 0.152 2 celdas con conteos esperados menores a 5.0 Nota: Chi cuadrada no podrá aplicarse en los casos donde los conteos seas menores a 5 en  20% de celdas. Si cualquiera de los conteos esperados en las celdas es menor a uno, no deberá usarse Chi2. Si algunas celdas tienen un conteo menor a los esperados, ya sea combinando u omitiendo renglones y/o columnas, las categorías pueden ser de utilidad.

189 Tabla de Chi2  . Tabla de valores críticos seleccionados para Chi2 DF
.250 .100 .050 .025 .010 .005 .001 1 1.323 2.706 3.841 5.024 6.635 7.879 10.828 2 2.773 4.605 5.991 7.378 9.210 10.597 13.816 3 4.108 6.251 7.815 9.348 11.345 12.838 16.266 4 5.385 7.779 9.488 11.143 13.277 14.860 18.467 5 6.626 9.236 11.070 12.832 15.086 16.750 20.515 6 7.841 10.645 12.592 14.449 16.812 18.548 22.458 7 9.037 12.017 14.067 16.013 18.475 20.278 24.322 8 10.219 13.362 15.507 17.535 20.090 21.955 26.125 9 11.389 14.684 16.919 19.023 21.666 23.589 27.877 10 12.549 15.987 18.307 20.483 23.209 25.188 29.588 11 13.701 17.275 19.675 21.920 24.725 26.757 31.264 12 14.845 18.549 21.026 23.337 26.217 28.300 32.909 13 15.984 19.812 22.362 24.736 27.688 29.819 34.528 14 17.117 21.064 23.685 26.119 29.141 31.319 36.123 15 18.245 22.307 24.996 27.488 30.578 32.801 37.697 16 19.369 23.542 26.296 28.845 32.000 34.267 39.252 17 20.489 24.769 27.587 30.191 33.409 35.718 40.790 18 21.605 25.989 28.869 31.526 34.805 37.156 43.312 19 22.718 27.204 30.144 32.852 36.191 38.582 43.820 20 23.828 28.412 31.410 34.170 37.566 39.997 45.315 .

190 Variación en familias a probar
Problema: Fugas Beneficios Potenciales: $10,000 de ahorro en retrabajos, y en la reducción de tiempo de ciclo. Variación en familias a probar Operador a operador Ho: No existe diferencia en los índices de defecto de los diferentes operadores Ha: Existe diferencia en los índices de defecto de los diferentes operadores Máquina a máquina Ho: No existe diferencia en los índices de defecto de las diferentes máquinas Ha: Existe diferencia en los índices de defecto de las diferentes máquinas Tamaño de la muestra: total de oportunidades (172 piezas) 22

191 Prueba de chi2 (máquina a máquina)
Los conteos esperados están colocados debajo de los conteos observados Con fugas Sin fugas Total Total Chi2 = 0.000 = DF= (4-1)(2-1) = 3; valor P =

192 Prueba de chi2 (operador a operador)
Los conteos esperados están colocados debajo de los conteos observados. Con gotera Sin gotera Total Total Chi2 = = DF= 5; valor P =

193 (en este caso, operador a operador y máquina a máquina)
¿Qué sucede si los grupos múltiples de variación son estadísticamente significativos? (en este caso, operador a operador y máquina a máquina) Se utiliza un procedimiento denominado “Coeficiente de Contingencia” como clave para determinar qué grupo de variación debe investigarse primero. Chi Cuadrada N Coeficiente de Contingencia x 100 Chi N CC Máquina Operador Controlador Mayor SI el tamaño de la muestra (N), es similar para los grupos. Al dividir entre N, probablemente, llevará a la misma ruta que hubiera alcanzado con sólo ver la estadística Chi2. Sin embargo, si N tiene una variación considerable, dependiendo del grupo de variación que se investiga, el coeficiente de contingencia puede ser una herramienta valiosa para determinar la prioridad sobre qué grupo debe investigarse primero. El coeficiente de contingencia (también llamado, en ocasiones, R cuadrada o contribución de porcentaje) ayuda a determinar en donde enfocarse primero si tiene dos familias que son estadísticamente significativas. Si un valor p ha determinado una de las familias como no estadísticamente significativa, entonces no es necesario calcular el CC. Para usar efectivamente esto, el tamaño de sus muestras deberá ser el mismo para todas sus familias de variación. Además, a menos que sea SS de un ANOVA, los CC no sumarán 100%. 14

194 (Estos mismos operadores fueron quienes
¿Qué sucede si los grupos múltiples de variación son estadísticamente significativos? (en este caso, operador a operador y máquina a máquina) Ahora que la información nos ha llevado a investigar a los grupos de operador a operador. ¿Qué debemos hacer ahora? Encontremos cuál de los operadores estaban fuera del estándar. ¿Era alguno de ellos notablemente peor (o mejor) que el resto? Con gotera Sin gotera Total Mucho peor que lo esperado El coeficiente de contingencia (también llamado, en ocasiones, R cuadrada o contribución de porcentaje) ayuda a determinar en donde enfocarse primero si tiene dos familias que son estadísticamente significativas. Si un valor p ha determinado una de las familias como no estadísticamente significativa, entonces no es necesario calcular el CC. Para usar efectivamente esto, el tamaño de sus muestras deberá ser el mismo para todas sus familias de variación. Además, a menos que sea SS de un ANOVA, los CC no sumarán 100%. Mucho mejor que lo esperado (Estos mismos operadores fueron quienes tuvieron los números más grandes de chi2) 14

195 Operador a operador: = 0.000 Rechace Ho y acepte Ha
(Existe una diferencia significativa entre los operadores) Los operadores 4 y 5 están fuera del estándar: El operador 4 es notablemente peor que el resto, El operador 5 es notablemente mejor que los demás ¿Cuál es el próximo paso? Hable con todos los operadores para averiguar qué diferencias pueden existen en sus técnicas. El operador 4 no tenía experiencia en este tipo de trabajo y apenas se estaba acostumbrado a soldar este producto en particular. El operador 5 encontró un modo de mejor de hacer el ensamble, con lo cual consiguió mejorar el trabajo de soldadura, aunque esto mostraba un grado de dificultad ergonómica. Se añadió un colocador para ensamblar la parte en forma segura. (Esto también redujo el tiempo que requerían los operadores para “acostumbrarse” a trabajar en esta forma)

196 Ejercicios 1. Se quiere evaluar la habilidad de tres inspectores de rayos X en un aeropuerto para detectar artículos clave. Como prueba se pusieron radios de transistores en 90 maletas, cada inspector fue expuesto a 30 maletas conteniendo radios mezcladas entre otras que nos los contenían. Los resultados se resumen a continuación: Inspectores 1 2 3 Radios detectados Radios no detectados ¿Con un 95% de confianza, existe una diferencia entre los inspectores? Ho: p1 = p2 = p3; Ha: al menos una es diferente Grados de libertad = (columnas - 1) ( filas -1)

197 Ejercicios 1. Se quiere evaluar si hay preferencia por manejar en un carril de una autopista dependiendo de la hora del día. Los datos se resumen a continuación: Hora del día Carril 1:00 3:00 5:00 Izquierdo Central Derecho ¿Con un 95% de confianza, existe una diferencia entre las preferencias de los automovilistas dependiendo de la hora? Ho: P1 = P2 = P3; Ha: al menos una es diferente Grados de libertad = (columnas - 1) ( filas -1)

198 Coeficiente de Contingencia
Coeficiente de contingencia es el grado de relación o dependencia de las clasificaciones en la tabla de contingencias es: Donde N es la frecuencia total y X es el estadístico Chi Cuadrado calculado

199 Coeficiente de Contingencia
Para los datos del ejemplo anterior se tiene: El valor máximo de C se obtiene de:

200 Correlación de atributos
Para tablas de orden k * k, el coeficiente de correlación, r, es : Donde 0<= r <= 1

201 VI.C.9 Pruebas de Hipótesis no paramétricas

202 Pruebas no paramétricas
Las pruebas paramétricas asumen una distribución para la población, tal como la Normal Las pruebas no paramétricas no asumen una distribución específica de la población Bajo los mismos tamaños de muestra la Potencia o probabilidad de rechazar Ho cuando es falsa es mayor en las pruebas paramétricas que en las no paramétricas Una ventaja de las pruebas no paramétricas es que los resultados de la prueba son más robustos contra violación de los supuestos

203 Prueba de Hipótesis Atributo Variable No Normal Normal Varianza
Tablas de Contingencia de  Varianza Medianas Correlación Correlación Homogeneidad de la Variación de Levene Prueba de signos Normal Wilcoxon Mann- Whitney Variancia Medias Kurskal- Wallis  Pruebas de t Prueba-F Muestra-1 Residuos distribuidos normalmente Prueba de Mood Muestra-2 Homogeneidad de la Variación de Bartlett Friedman ANOVA Una vía Dos vías Correlación Regresión

204 Resumen de pruebas de Hipótesis
Datos Normales Datos No Normales Pruebas de Variancias X2 : Compara la variancia de una muestra con una variancia de un universo conocido. Prueba F : Compara dos varianzas de muestras. Homogeneidad de la variancia de Bartlett: Compara dos o más varianzas muestras de la misma población. Pruebas de Varianzas Homogeneidad de la varianza de Levene : Compara dos o más varianzas de muestras de la misma población.

205 Resumen de pruebas de Hipótesis
Datos Normales Datos No Normales Pruebas de los Promedios Prueba t de 1 muestra : Prueba si el promedio de la muestra es igual a un promedio conocido o meta conocida. Prueba t de 2 muestras : Prueba si los dos promedios de las muestras son iguales. ANOVA de un factor: Prueba si más de dos promedios de las muestras son iguales. ANOVA de dos factores : Prueba si los promedios de las muestras clasificadas bajo dos categorías, son iguales. Correlación : Prueba la relación lineal entre dos variables. Regresión : Define la relación lineal entre una variable dependiente y una independiente. (Aquí la "normalidad" se aplica al valor residual de la regresión) Pruebas de la Mediana Prueba de signos o Prueba Wilcoxon : Prueba si la mediana de la muestra es igual a un valor conocido o a un valor a alcanzar. Prueba Mann-Whitney : Prueba si dos medianas de muestras son iguales. Prueba Kruskal-Wallis: Prueba si más de dos medianas de muestras son iguales. Asume que todas las distribuciones tienen la misma forma. Prueba de la mediana de Mood : Otra prueba para más de dos medianas. Prueba más firme para los valores atípicos contenidos en la información. Prueba Friedman : Prueba si las medianas de las muestras, clasificadas bajo dos categorías, son iguales. Correlación : Prueba la relación lineal entre dos variables.

206 Acciones a tomar con datos No Normales
Revise y asegúrese de que los datos no siguen una distribución normal. Desarrollar una Prueba de normalidad (para verificar realmente lo anormal. Para la prueba de Bartlet el valor de p debe ser < 0.05) Desarrollar una Prueba de Corridas (para verificar que no existen sucesos no aleatorios que puedan haber distorsionado la información) Revisar la información para detectar errores (tipográficos, etc.). Investiguar los valores atípicos. Una muestra pequeña (n < 30) proveniente de un universo normal, se mostrará algunas veces como anormal. Intentar transformar los datos. Las transformaciones comunes incluyen: - Raíz cuadrada de todos los datos - Logaritmo de todos los datos - Cuadrado de todos los datos Si la información es todavía anormal, entonces usar las herramientas no paramétricas.

207 7B8. Definiciones Promedio : Es la media aritmética de la información. Es la suma de todos los datos, dividida entre el número de datos de referencia. Mediana: Valor del punto medio de los datos, cuando se ordenan en forma ascendente (en caso de datos pares, obtener promedio). Moda : Valor que se repite con más frecuencia sobre el conjunto de datos. Ejemplo: Se cuestionó a veinte personas sobre cuánto tiempo les tomaba estar listas para ir a trabajar, en las mañanas. Sus respuestas (en minutos) se muestran más adelante. ¿Cuáles son el promedio y la mediana para esta muestra? 30, 37, 25, 35, 42, 35, 35, 47, 45, 60 39, 45, 30, 38, 35, 40, 44, 55, 47, 43 It is helpful to know the Mean, Median, and Mode of your data set. The mean (average) versus the median gives you an idea as to how skewed your data may be from Normal. As data becomes more Non-Normal (unless it’s bi-modal), the mean and median move farther apart. 5

208 Un dibujo dice más que mil palabras
Promedio Mediana C1 Promedio = Mediana = 39.5 El promedio puede estar influenciado considerablemente por los valores atípicos porque, cuando se calcula un promedio, se incluyen los valores reales de estos valores. La mediana, por otra parte, asigna la misma importancia a todas las observaciones, independientemente de los valores reales de los valores atípicos, ya que es la que sencuentra en la posición media de los valores ordenados.

209 Pruebas Alternativas comúnmente usadas
Analogía con datos normales Prueba de Corridas (la misma prueba para ambos tipos de información) Prueba t de una muestra Prueba t de 2 muestras ANOVA de un factor Pruebas para datos No normales Prueba de Corridas : Calcula la probabilidad de que un X número de puntos de referencia, esté por encima o por debajo del promedio aleatoriamente. Prueba de signos, de 1 muestra : Prueba la probabilidad de que la mediana de la muestra, sea igual al valor hipotético. Prueba Mann-Whitney : Comprueba el rango de dos muestras, por la diferencia entre dos medianas del universo. Prueba de la Mediana de Mood : Prueba para más de dos medianas del universo. Más robusta para los valores atípicos o para los errores en la información.

210 Prueba de Rachas Considere los siguientes datos (que se muestran aquí en orden cronológico): 325, 210, 400, 72, 150, 145, 110, 507, 56, 120, 99, 144, 110, 110, 320, 290, 101, 0, 80, 500, 201, 50, 140, 80, 220, 180, 240, 309, 80 Es importante tener los datos registrados en orden cronológico. Una representación gráfica de los datos se asemeja a esto: 600 Promedio 500 Primera "corrida" 400 300 200 100 Segunda ”racha" Racha: Un punto o una serie consecutiva de puntos que caen en un lado del promedio. Número total de Rachas: 12 Número total de puntos > al promedio: 11 Número total de puntos < al promedio: 18

211 Este es el valor p de las Prueba de Corridas
Prueba de Rachas Ho: Los datos son aleatorios Ha:Los datos NO so aleatorios Prueba de Rachas Promedio K = Número de rachas observado = 12 Número de rachas esperado = => No se rechaza Ho 11 observaciones por encima de K; 18 por debajo La prueba es significativa en p= No se puede rechazar Ho con valor alfa = 0.05 Promedio Este es el valor p de las Prueba de Corridas Ya que p > 0.05, no podemos rechazar la hipótesis nula. Los datos son aceptados, siendo aleatorios.

212 Cálculos de la Prueba de Rachas
El estadístico Z cuando n > 20 se calcula como: Z = (G - MediaG) / DesvStG Con MediaG = 1 + (2n1*n2) / (n1 + n2) DesvStG = Raiz [ (2n1*n2) (2n1*n2 - n1 -n2) / (n1 + n2)^2* (n1+n2 -1) Del ejemplo anterior G = 12; n1 = 11 n2 = 18 MediaG = DesStG = Z1 = ( ) / = P(Z1) = y para dos colas se tiene P(Z1) + P(Z2) = > Alfa crítico de 0.05, no rechazándose Ho Si las n1 y n2 son menores a 21, entonces se consulta la tabla de valores críticos para el número de Rachas G

213 Corrida con Minitab Runs Test: C1 Runs test for C1
Stat > Nonparametrics > Runs Test Variable C1, Above and below the mean Runs Test: C1 Runs test for C1 Runs above and below K = The observed number of runs = 12 The expected number of runs = 11 observations above K, 18 below P-value = 0.285 P > 0.05 No rechazar Ho

214 Prueba de Signos de la Mediana
Ho : La mediana de la muestra es igual a la mediana de la hipótesis Ha : Las medianas son diferentes Ejemplo (usando los datos del ejemplo anterior): Ho: Valor de la mediana = 115.0 Ha: Valor de la mediana diferente de 115.0 N DEBAJO IGUAL ENCIMA VALOR P MEDIANA Ya que p >0.05, no se puede rechazar la hipótesis nula. No se puede probar que la mediana real y la mediana hipotética son diferentes. En las páginas siguientes se muestra el detalle del cálculo.

215 Cálculos de la Prueba de Signos de la Mediana
Ejemplo: Con los datos del ejemplo anterior y ordenándo de menor a mayor se tiene: n = 29, Mediana de Ho = 115 No. Valor Signo No. Valor Signo No. Valor Signo Con la mediana en 144. Si el valor contra el cual se desea probar es 115, entonces hay 12 valores por debajo de el (-) y 17 valores por arriba (+).

216 Cálculos de la Prueba de Signos de la Mediana
El estadístico X es el el número de veces que ocurre el signo menos frecuente, en este caso el 12 (-). Cómo n  25, se calcula el estadístico Z para la prueba de signos con: Z = [ (Y + 0.5) - (0.5*n) ]/ 0.5  n En este caso Z1 = y P(Z1) = para la cola izquierda en forma similar P(Z2) para la cola derecha, por lo que la probabilidad total es >> 0.05 del criterio de rechazo. Si n hubiera sido < 25 entonces se hubiera consultado la tabla de valores críticos para la prueba de signo.

217 Prueba de Signos de la Mediana
¿Es esto correcto?¿144 podría ser igual a 115? Bueno, veamos una gráfica de la información 100 200 300 400 500 115 144 Después de todo, tal vez esto SEA lo correcto.

218 Corrida en Minitab Sign Test for Median: Signos
Stat > Nonparametrics > 1-Sample sign Variable C1 Confidence interval 95% Test Median 115 Alternative Not equal Como P > 0.05 no se rechaza Ho y la mediana es 115 Sign Test for Median: Signos Sign test of median = versus not = 115.0 N Below Equal Above P Median Signos

219 Prueba de Signos de la Mediana Para observaciones pareadas
Calificaciones de amas de casa a dos limpiadores de ventanas: Ho: p = 0.5 no hay preferencia de A sobre B Ha: p<>0.5 Ama Limpiador B Casa A 1 10 7 2 5 3 8 4 6 9 ¿Hay evidencia que indique cierta preferencia de las amas de casa por lo limpiadores?

220 Prueba de Signos de la Mediana
Producto B Familia A 1 - + 2 3 4 5 6 7 8 9 10 11 Media = 0.5*n Desv. Estand.= 0.5*raiz(n) Zc = (Y – media) / Desv. Estánd. Rechazar Ho si Zc ><Zalfa/2 ¿Hay evidencia que indique cierta preferencia por un Producto A o B?

221 Prueba de Signos de la Mediana
Desv. Estand.= 0.5*raiz(n) = 1.67 Para Zc = (8 – 5.5) / 1.67 = 1.497 Zexcel = 1.96 para alfa/2 = 0.025 Como Zc < Zexcel no se rechaza Ho o Como p value = > 0.025 No hay evidencia suficiente de que los Consumidores prefieran al producto B

222 Prueba rango con signo de Wilconox
Es la alternativa no paramétrica de la prueba paramétrica de muestras pareadas Ejemplo: HO: Las poblaciones son idénticas Ha: Caso contrario Trabajador Método 1 Método 2 Diferencias Abs(diferen.) Rango Rango c/signo 1 10.2 9.5 0.7 8 2 9.6 9.8 -0.2 0.2 -2 3 9.2 8.8 0.4 3.5 4 10.6 10.1 0.5 5.5 5 9.9 10.3 -0.4 -3.5 6 9.3 0.9 10 7 10.5 0.1  Eliminar 9 11.2 0.6 10.7 11 0.8 T = 44

223 Prueba rango con signo de Wilconox
Distribución muestral T para poblaciones idénticas Se aproxima a la distribución normal para n >= 10 En este caso n = pares eliminando las que son iguales con dif. = 0 para el trabajador 8.  = raiz(10 x 11 x 21/6) = 19.62 Z = (T – )/ = 44/19.62 = 2.24 Z alfa/2 = Z0.025 = 1.96 Como Zc = 2.24 > Z0.025 se rechaza Ho, los métodos son diferentes

224 Prueba en Minitab para prueba de mediana con Wilconox
File> Open worksheet > Exh_Stat Stat > Nonparametrics > 1-Sample Wilconox Variables C1 Test Median 77 Altenative Not equal Achievement 77 88 85 74 75 62 80 70 83 Wilcoxon Signed Rank Test: Achievement Test of median = versus median not = 77.00 for Wilcoxon Estimated N Test Statistic P Median Achievement Ho: Mediana = Ha: Mediana <> 77 Como P de >> alfa de 0.05 no se rechaza Ho

225 Prueba de Mann-Whitney
Se llevó a cabo un estudio que analiza la frecuencia del pulso en dos grupos de personas de edades diferentes, después de diez minutos de ejercicios aeróbicos. Los datos resultantes se muestran a continuación. Edad 40-44 C1 140 135 150 144 154 160 136 148 Edad 16-20 C2 130 166 128 126 132 124 ¿Tuvieron diferencias significativas las frecuencias de pulso de ambos grupos?

226 Prueba de Mann-Whitney
Ordenando los datos y asignándoles el (rango) de su posición relativa se tiene (promediando posiciones para el caso de que sean iguales): Edad 40-44 C1 (7) 135 (8.5) 136 (11) 140 (11) 140 (13.5) 144 (15) 148 (16) 150 (17) 154 (18) 160 n1 = 10 Ta = 130.5 Edad 16-20 C2 (1) 124 (2) 126 (3.5) 128 (5) 130 (6) 132 (11)140 (15)166 n2 = 9 Tb = 55.5

227 Prueba de Mann-Whitney
Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales Ha: Las distribuciones de frecuencias relativas poblacionales no son idénticas Ho: 1 = 2 Ha: 1  2 1, 2 = Medianas de las poblaciones Ordenando los datos y asignándoles su posición relativa se tiene: Ua = n1*n2 + (n1) * (n1 + 1) /2 - Ta Ub = n1*n2 + (n2) * (n2 + 1) /2 - Tb Ua + Ub = n1 * n2 Ua = = P(Ua) = Ub = = 79.5 El menor de los dos es Ua. Para alfa = 0.05 el valor de Uo = 25 Como Ua < 25 se rechaza la Hipótesis Ho de que las medianas son iguales. Dado que p < 0.05, rechazamos la hipótesis nula. Estadísticamente existe una diferencia significativa entre los dos grupos de edad.

228 Prueba de Mann-Whitney
Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales Ha: Las distribuciones de frecuencias relativas poblacionales no son idénticas Ua = Ub = 79.5 Utilizando el estadístico Z y la distribución normal se tiene: Z = [ (U - (n1* n2 / 2 ) / Raiz (n1 * n2 * (n1 + n2 + 1) / 12) Con Ua y Ub se tiene: Za = ( ) / = P(Z) = similar a la anterior Zb = ( ) / = 2.81 P(total) = 2 * = menor  = 0.05 El valor crítico de Z para alfa por ser prueba de dos colas, es 1.96. Como Za > Zcrítico se rechaza la Hipótesis Ho de que las medianas son iguales. Dado que p < 0.05, rechazamos la hipótesis nula. Estadísticamente existe una diferencia significativa entre los dos grupos de edad.

229 Prueba de Mann-Whitney 16-20 años de edad
Diferencias entre los encabezados de los renglones y las columnas De esta manera, se calcula la mediana de todas estas diferencias, denominada "punto estimado". Este punto estimado es una aproximación de la diferencia entre las medianas de los dos grupos (ETA1 y ETA2). Una vez ajustados los "enlaces" (eventos de un mismo valor en ambos grupos de información), Minitab usa este punto estimado para calcular el valor p.

230 Corrida en Minitab Mann-Whitney Test and CI: C1, C2 N Median P>0.05
Stat > Nonparametrics > Mann Whitney First Sample C1 Second Sample C2 Conf. Level 95% Alternative Not equal Mann-Whitney Test and CI: C1, C2 N Median P>0.05 C Se rechaza Ho C Point estimate for ETA1-ETA2 is 12.00 95.5 Percent CI for ETA1-ETA2 is (4.01,20.00) W = 130.5 Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at The test is significant at (adjusted for ties)

231 Prueba de Kruskal Wallis
Ordenando los datos de ventas y asignándoles el (rango) de su posición relativa se tiene (promediando posiciones para el caso de que sean iguales): Zona 1 (15.5) 147 (17.5) 17.5 (9) 128 (19) 162 (12) 135 (10) 132 (22) 181 (13) 138 n1 = 8 Ta = 118 Zona 2 (17.5) 160 (14) 140 (21) 173 (4) 113 (1) 85 (7) 120 (25) 285 (5) 117 (11) 133 (6) 119 n2 = 10 Tb = 111.5 Zona 3 (24) 215 (8) 127 (2) 98 (15.5) 127 (23) 184 (3) 109 (20) 169 n3 = 7 Tc = 95.5 N = n1 + n2 + n3 = 25

232 Prueba de Kruskal Wallis
Ho: Las poblaciones A, B y C son iguales Ha: Las poblaciones no son iguales Ho: 1 = 2 = 3 Ha: 1  2  3 ; 1, 2, 3 = Medianas de las poblaciones Calculando el valor del estadístico H se tiene: H = [ 12 /( N* ( N + 1)) ] * [ Ta2 / n1 + Tb2 / n2 + Tc2 / n3 ] - 3 * ( N +1 ) H = * ( ) - 78 = 1.138 Se compara con el estadístico 2 para  = 0.05 y G.l. = k - 1 = 3-1 = 1 (k muestras) 2 crítico = (válido siempre que las muestras tengan al menos 5 elementos) Como H < 2 crítico, no se rechaza la Hipótesis Ho: Afirmando que no hay diferencia entre las poblaciones 15

233 Corrida en Minitab Kruskal-Wallis Test: Datos versus Factor
Stat > Nonparametrics > Kruskal Wallis Response C1 Factor C2 OK Kruskal-Wallis Test: Datos versus Factor Kruskal-Wallis Test on Datos Factor N Median Ave Rank Z Zona Zona Zona Overall P > 0.05 H = DF = 2 P = No se rechaza Ho H = DF = 2 P = (adjusted for ties)

234 Prueba de Medianas de Mood
Realiza prueba de hipótesis de igualdad de medias en un diseño de una vía. La prueba es robusta contra Outliers y errores en datos y es adecuada para análisis preliminares Determina si K grupos independientes han sido extraidas de la misma población con medianas iguales o poblaciones con formas similares Con base en la gran mediana, anotar un signo positivo si la observación excede la mediana o un signo menos si es menor. Los valores que coincidan se reparten en los grupos Hacer una tabla de contingencia K x 2 con las frecuencias de signos más y menos en cada grupo K

235 Prueba de Medianas de Mood
Se determina el estadístico Chi Cuadrada con: Probar Ho: Todas las medianas son iguales Ha: Al menos una mediana es diferente Se compara Chi Cuadrada calculada con Chi Cuadrada de alfa para 0.05 y (reng – 1)*(Col – 1) grados de libertad

236 Corrida con Minitab Se les da a 179 participantes una conferencia con dibujos para ilustrar el tema. Después se les da la prueba OTIS que mide la habilidad intelectual. Los participantes se clasificaron por nivel educativo 0-No prof., 1-Prof., 2-Prepa Ho: h1 = h2 = h3 Ha: no todas las medianas son iguales File > Open Worksheet > Cartoon.mtw Stat > Nonparametrics > Mood’s Median Test Response Otis Factor ED Ok

237 Corrida con Minitab Mood Median Test: Otis versus ED
Mood median test for Otis P>0.05 Chi-Square = DF = 2 P = Se rechaza Ho Individual 95.0% CIs ED N<= N> Median Q3-Q (-----*-----) (------*------) (----*----) Overall median = 107.0

238 Diseños factoriales aleatorias bloqueados de Friedman
Esta prueba es una alternativa al ANOVA de dos vías, es una generalización de las pruebas pareadas con signo. La aditividad es requerida para para estimar los efectos de los tratamientos Ho: Los tratamientos no tienen un efecto significativo Ha: Algunos tratamientos tienen efecto significativo

239 Diseños factoriales aleatorias bloqueados de Friedman
Resultados de salida: Se muestra el estadístico de prueba con distribución Chi Cuadrada aproximada con gl = Tratamientos – 1. Si hay observaciones parecidas en uno o más bloques, se usa el rango promedio y se muestra el estadístico corregido La mediana estimada es la gran mediana más el efecto del tratamiento

240 Diseños factoriales aleatorias bloqueados de Friedman
Ejemplo: Se evalúa el efecto del tratamiento de una droga en la actividad enzimática con tres niveles, probado en cuatro animales Open the worksheet EXH_STAT.MTW. Stat > Nonparametrics > Friedman. Response, seleccionar EnzymeActivity. En Treatment, seleccionar Therapy. En Blocks, seleccionar Litter. Click OK.

241 Diseños factoriales aleatorias bloqueados de Friedman
EnzymeActivity Therapy Litter 0.15 1 0.26 2 0.23 3 0.99 4 0.55 -0.22 0.66 0.77 Datos:

242 Diseños factoriales aleatorias bloqueados de Friedman
Resultados: Friedman Test: EnzymeActivity versus Therapy blocked by Litter S = DF = 2 P = No rechazar Ho S = DF = 2 P = (adjusted for ties) Sum of Therapy N Est Median Ranks Grand median =

243 Diseños factoriales aleatorias bloqueados de Friedman
Resultados: El estadístico de prueba S tiene un valor P de sin ajustar para observaciones en cero y para el valor ajustado. Por tanto no hay evidencia suficiente para rechazar Ho Las medianas estimadas asociadas con los tratamientos son la gran mediana más los efectos estimados de los tratamientos. El estadístico de prueba se determina con base a los rangos en cada bloque y totales

244 Diseños factoriales aleatorias bloqueados de Friedman
Resultados:

245 Diseños factoriales aleatorias bloqueados de Friedman
Resultados:

246 Diseños factoriales aleatorias bloqueados de Friedman
Resultados:

247 Prueba de igualdad de varianzas de Levene
Se usa para probar la hipótesis nula de que las varianzas de k múltiples poblacionales son iguales Las igualdad de varianzas en las muestras se denomina homogeneidad de varianzas La prueba de Levene es menos sensible que la prueba de Bartlett o la prueba F cuando se apartan de la normalidad La prueba de Bartlett tiene un mejor desempeño para la distribución normal o aproximadamente normal

248 Prueba de igualdad de varianzas de Levene
Para dos muestras el procedimiento es como sigue: Determinar la media Calcular la desviación de cada observación respecto a la media Z es el cuadrado de las desviaciones respecto a la media Aplicar la prueba t a las dos medias de los datos

249 Prueba de igualdad de Varianzas-Minitab
Rot Temp Oxygen 13 10 2 11 3 6 4 7 15 26 16 19 24 22 18 20 8 Prueba de igualdad de Varianzas-Minitab Se estudian tamaños de papa inyectando con bacterias y sujetas a diferentes temperaturas. Antes del ANOVA se verifica la igualdad de varianzas Stat > ANOVA > Test for equal variances Response Rot Factors Temp Oxigen Confidence level 95%

250 Resultados

251 Resultados Test for Equal Variances: Rot versus Temp, Oxygen
95% Bonferroni confidence intervals for standard deviations Temp Oxygen N Lower StDev Upper Bartlett's Test (normal distribution) Test statistic = 2.71, p-value = P>0.05 no rechazar Ho Levene's Test (any continuous distribution) Test statistic = 0.37, p-value = 0.858

252 Prueba de la concordancia del Coeficiente de Kendall
El coeficiente expresa el grado de asociación entre las calificaciones múltiples realizadas por un evaluador Ho: Las variables son independientes Ha: Las variables están asociadas Kendall usa la información relacionada con las calificaciones relativas y es sensible a la seriedad de mala clasificación Por ejemplo para K = jueces N = Muestras = 10 Rango medio = 220 / S = Gl = n-1 = 9 Chi Cuadrada crítica = X2 0.01,9 = 21.67

253 Prueba de la concordancia del Coeficiente de Kendall
El Estadístico Chi Cuadrada calculado es: Como Chi Cuadrada de alfa es menor que la calculada, los cuatro jueces están asociados significativamente. Constituyen un panel uniforme. No quiere decir que estén en lo correcto, solo que responden de manera uniforme a los estímulos

254 El coeficiente de correlación de rangos de Spearman (rs)
El coeficiente de correlación es una medida de la asociación que requiere que ambas variables sean medidas en al menos una escala ordinal de manera que las muestras u observaciones a ser analizadas pueden ser clasificadas en rangos en dos series ordenadas Ho: Las variables son independientes Ha: Las variables están asociadas Para el ejemplo anterior si N = 10, el coeficiente es:

255 Coeficiente de correlación de rangos para monotonía de preferencias
Una persona interesada en adquirir un TV asigna rangos a modelos de cada uno de 8 fabricantes Preferencia Precio (rango) Fab. 1 7 (1) 2 4 (5) 3 (3) 6 (4) 5 (8) (7) 8 (2) (6) Di cuadrada Rango Di 6 36 -1 1 2 4 -7 49 -4 16 15

256 Coeficiente de correlación de rangos para monotonía de preferencias
Ho: No existe asociación entre los rangos Ha: Existe asociación entre los rangos o es positiva o negativa El coeficiente de correlación de rangos de Spearman es: Rs = 1 – 6*suma(di cuadrada) / (n(n cuadrada – 1)) En este caso: Rs = 1 – 6(144)/(8*(64-1) = R0 se determina de la tabla de Valores críticos del coeficiente de correlación del coeficiente de correlación de rangos de Spearman Rt = 0.686 Por tanto si hay asociación significativa en las preferencias 15

257 Tabla de constantes 15

258 Corrida con Minitab Correlations: Preferencia, Precio
Para la corrida en Minitab primero se deben determinar los rangos en forma manual para las variables X y Y. Stat > Basic statistics > Correlation Variables Preferencia Precio Fabricante Prefe-rencia Precio 1 7 449 2 4 5 525 3 479 6 499 8 580 549 469 532 Correlations: Preferencia, Precio Pearson correlation of Preferencia and Precio = P-Value = 0.047

259 Ejemplo con Minitab Correlations: Colageno, Proline
Se estudia la relación entre colágeno y Proline en pacientes con cirrosis Stat > Basic statistics > Correlation Variables Colágeno Proline Paciente Colágeno Proline 1 7.1 2.8 2 2.9 3 7.2 4 8.3 2.6 5 9.4 3.5 6 10.5 4.6 7 11.4 Correlations: Colageno, Proline Pearson correlation of Colageno and Proline = 0.935 P-Value = 0.002

260 Resumen de pruebas no paramétricas
Prueba de signos de 1 muestra: Prueba la igualdad de la mediana a un valor y determina el intervalo de confianza Prueba de Wilconox de 1 muestra: Prueba la igualdad de la mediana a un valor con rangos con signo y determina el intervalo de confianza Comparación de dos medianas poblacionales de Mann Whitney: Prueba la igualdad de las medianas y determina el intervalo de confianza

261 Resumen de pruebas no paramétricas
Comparación de igualdad de medianas poblacionales de Kruskal Wallis: Prueba la igualdad de las medianas en un diseño de una vía y determina el intervalo de confianza Comparación de medianas poblacionales de Mood: Prueba la igualdad de medianas con un diseño de una vía

262

263

264 Salidas de la Fase de Análisis
Causas raíz validadas Guía de oportunidades de mejora


Descargar ppt "Programa de certificación de Black Belts"

Presentaciones similares


Anuncios Google