La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

David R. González Barreto Universidad de Puerto Rico.

Presentaciones similares


Presentación del tema: "David R. González Barreto Universidad de Puerto Rico."— Transcripción de la presentación:

1 David R. González Barreto Universidad de Puerto Rico

2 Intro MVDA - DRGB – Septiembre 2011 [2] PCAE -PCAPLSE - PLSQ Chart  La habilidad de capturar datos hace tiempo le viene ganando la carrera a la habilidad de obtener información significativa de estos datos.  Es necesario hacer uso de herramientas analíticas adecuadas que extraigan información sustantiva de grandes bases de datos.  La habilidad de capturar datos hace tiempo le viene ganando la carrera a la habilidad de obtener información significativa de estos datos.  Es necesario hacer uso de herramientas analíticas adecuadas que extraigan información sustantiva de grandes bases de datos.

3 Intro MVDA - DRGB – Septiembre 2011 [3] PCAE -PCAPLSE - PLSQ Chart  Existen muchas situaciones (típico de PAT) en donde es necesario la medición y/o monitoreo simultáneo de múltiples variables de proceso o de calidad.  El monitoreo independiente de estas características puede llevarnos a decisiones erróneas con respecto al estado del proceso o producto.  Existen muchas situaciones (típico de PAT) en donde es necesario la medición y/o monitoreo simultáneo de múltiples variables de proceso o de calidad.  El monitoreo independiente de estas características puede llevarnos a decisiones erróneas con respecto al estado del proceso o producto.

4 Intro MVDA - DRGB – Septiembre 2011 [4] PCAE -PCAPLSE - PLSQ Chart  Si m pruebas independientes univariadas son realizadas, cada una con probabilidad α de cometer el Error Tipo I, la probabilidad global de cometer este error para todas las pruebas está dado por: α glogal = 1 – (1 – α ) m  Si m pruebas independientes univariadas son realizadas, cada una con probabilidad α de cometer el Error Tipo I, la probabilidad global de cometer este error para todas las pruebas está dado por: α glogal = 1 – (1 – α ) m Ejemplo: 10 pruebas con α = 0.05 α global = 1 – (1 - 0.05) 10 α global = 1 – 0.5987 = 0.4013 Ejemplo: 10 pruebas con α = 0.05 α global = 1 – (1 - 0.05) 10 α global = 1 – 0.5987 = 0.4013

5 Univariados Control para dos variables Intro MVDA - DRGB – Septiembre 2011 [5] PCAE -PCAPLSE - PLSQ Chart

6 Intro MVDA - DRGB – Septiembre 2011 [6] PCAE -PCAPLSE - PLSQ Chart VARIABLES K OBSERVACIONES, OBJETOS, MUESTRAS, CASOS, ÍTEMS N Complejidad de los datosNúmero de variables UnivariadoK = 1 BivariadoK = 2 “Low Variate”K < 5 MultivariateK > 5

7 Intro MVDA - DRGB – Septiembre 2011 [7] PCAE -PCAPLSE - PLSQ Chart  Visión general de los datos (data overview)  Clasificación y/o discriminación entre grupos de observaciones  Regresión y modelaje entre dos bloques de datos (X y Y)  Visión general de los datos (data overview)  Clasificación y/o discriminación entre grupos de observaciones  Regresión y modelaje entre dos bloques de datos (X y Y)

8 Intro MVDA - DRGB – Septiembre 2011 [8] PCAE -PCAPLSE - PLSQ Chart X XY I II III Visión general de los datos Clasificación y/o discriminación entre grupos de observaciones Regresión y modelaje entre dos bloques de datos (X y Y) PCA PLS

9 Intro MVDA - DRGB – Septiembre 2011 [9] PCAE -PCAPLSE - PLSQ Chart Datos del Proceso X Datos de Calidad, Productividad Y Existen Técnicas para: Explicar la variación en X ó Y (PCA) - mientras maximiza la Varianza (X) ó (Y) Explicar la variación en X e Y y la relación entre X e Y (PLS) - mientras maximiza la Covarianza (X,Y) Existen Técnicas para: Explicar la variación en X ó Y (PCA) - mientras maximiza la Varianza (X) ó (Y) Explicar la variación en X e Y y la relación entre X e Y (PLS) - mientras maximiza la Covarianza (X,Y) Temperatura, Presión, Velocidad, Nivel de fluido, Ph, concentración, rendimiento, ……, Peso, Dureza, Grosor, Potencia, Presión, Velocidad, Content Uniformity, Disolución, ……

10 Intro MVDA - DRGB – Septiembre 2011 [10] PCAE -PCAPLSE - PLSQ Chart  Las bases de MVDA pueden ser delineadas en términos de la geometría de espacios multidimensionales.  Los datos multivariados y sus modelos pueden representarse como puntos, líneas, planos e hiperplanos en éstos espacios multidimensionales.  Las bases de MVDA pueden ser delineadas en términos de la geometría de espacios multidimensionales.  Los datos multivariados y sus modelos pueden representarse como puntos, líneas, planos e hiperplanos en éstos espacios multidimensionales.

11 Intro MVDA - DRGB – Septiembre 2011 [11] PCAE -PCAPLSE - PLSQ Chart Suponga que K = 3, esto es existen 3 variables. Cada observación puede ser representada en un conjunto de ejes, un espacio tridimensional

12 Intro MVDA - DRGB – Septiembre 2011 [12] PCAE -PCAPLSE - PLSQ Chart El principio de representar cada observación como un punto en el espacio multidimensional hace posible convertir una tabla de datos en una representación gráfica. Todas las observaciones de X se desplegan en el espacio de dimensión K, como una nube de puntos. En esta gráfica se presentan 20 observaciones.

13 Intro MVDA - DRGB – Septiembre 2011 [13] PCAE -PCAPLSE - PLSQ Chart  El análisis de datos corresponde a formular una descripción cuantitativa de la forma de la nube de puntos. Este modelo puede verse como una ventana en el espacio tridimensional.  Esta ventana se orienta de forma tal que provee una visión general de los datos y permite su interpretación.  El principio detrás de esta converisón se conoce como proyección.  La proyección logra disminuir el espacio tridimensional original en un espacio bidimensional (la ventana). Examinando la posición de cada observación en la ventana obetenemos una visión general de los datos.  El análisis de datos corresponde a formular una descripción cuantitativa de la forma de la nube de puntos. Este modelo puede verse como una ventana en el espacio tridimensional.  Esta ventana se orienta de forma tal que provee una visión general de los datos y permite su interpretación.  El principio detrás de esta converisón se conoce como proyección.  La proyección logra disminuir el espacio tridimensional original en un espacio bidimensional (la ventana). Examinando la posición de cada observación en la ventana obetenemos una visión general de los datos.

14 Intro MVDA - DRGB – Septiembre 2011 [14] PCAE -PCAPLSE - PLSQ Chart  El principio de proyecciones puede ser matemáticamente extendedido a cualquier número de variables en el espacio K.  Ejemplo: el archivo FOODS, suministrado por Umetrics, es un ejemplo donde tenemos 16 observaciones (N) para cada una de 20 variables (K, K > N, imposible usar regresión). El objetivo del estudio es el de investigar patrones de consumo alimenticio en paises europeos.  El principio de proyecciones puede ser matemáticamente extendedido a cualquier número de variables en el espacio K.  Ejemplo: el archivo FOODS, suministrado por Umetrics, es un ejemplo donde tenemos 16 observaciones (N) para cada una de 20 variables (K, K > N, imposible usar regresión). El objetivo del estudio es el de investigar patrones de consumo alimenticio en paises europeos.

15 Intro MVDA - DRGB – Septiembre 2011 [15] PCAE -PCAPLSE - PLSQ Chart Base de Datos – FOODS.xls

16 Intro MVDA - DRGB – Septiembre 2011 [16] PCAE -PCAPLSE - PLSQ Chart K (20) > N (16)  Cada una de las 16 observaciones (países) se convierte en un punto de la nube de puntos en el espacio de veinte dimensiones.  Este espacio puede reducirse a muchas menos dimensiones extrayendo la información sustancial de los datos, proyectando cada observación en la ventana.  Note como los países nórdicos se agrupan en la parte superior.  Esta es la escencia de la metodología de PCA. K (20) > N (16)  Cada una de las 16 observaciones (países) se convierte en un punto de la nube de puntos en el espacio de veinte dimensiones.  Este espacio puede reducirse a muchas menos dimensiones extrayendo la información sustancial de los datos, proyectando cada observación en la ventana.  Note como los países nórdicos se agrupan en la parte superior.  Esta es la escencia de la metodología de PCA.

17 Intro MVDA - DRGB – Septiembre 2011 [17] PCAE -PCAPLSE - PLSQ Chart Ejemplo Foods: Score Plot Ejemplo Foods: Loadings Plot

18 Intro MVDA - DRGB – Septiembre 2011 [18] PCAE -PCAPLSE - PLSQ Chart Ejemplo Foods: Distance to Model: DMODX No se observan outliers, todos los países se ajustan bien al modelo

19 PCA

20 Intro MVDA - DRGB – Septiembre 2011 [20] PCAE -PCAPLSE - PLSQ Chart  PCA es un método para crear combinaciones lineales de las características originales que son ortogonales; a estas combinaciones se le llama los componentes principales (PC).  Los PCs, a través de las combinaciones lineales independientes intentan contienen la mayoría de la variabilidad de las características originales.  PCA es un método para crear combinaciones lineales de las características originales que son ortogonales; a estas combinaciones se le llama los componentes principales (PC).  Los PCs, a través de las combinaciones lineales independientes intentan contienen la mayoría de la variabilidad de las características originales.

21 Intro MVDA - DRGB – Septiembre 2011 [21] PCAE -PCAPLSE - PLSQ Chart  PCA se utiliza para encontrar las estructuras de correlación entre las múltiples variables.  La idea es encontrar un puñado de variables no correlacionadas, que son combinaciones lineales de las variables originales, que contengan la mayoría de la variabilidad de éstas. Por esta razón, se le conoce como una técnica de reducción de dimensiones.  PCA se utiliza para encontrar las estructuras de correlación entre las múltiples variables.  La idea es encontrar un puñado de variables no correlacionadas, que son combinaciones lineales de las variables originales, que contengan la mayoría de la variabilidad de éstas. Por esta razón, se le conoce como una técnica de reducción de dimensiones.

22 Intro MVDA - DRGB – Septiembre 2011 [22] PCAE -PCAPLSE - PLSQ Chart Matriz de Datos: Las filas corresponden a las unidades experimentales y las columnas a las características p: número de características consideradas n: número de unidades experimentales X rj : valor de la característica j en la unidad experimental r donde r = 1,2,…,n and j = 1,2,…,p. Matriz de Datos: Las filas corresponden a las unidades experimentales y las columnas a las características p: número de características consideradas n: número de unidades experimentales X rj : valor de la característica j en la unidad experimental r donde r = 1,2,…,n and j = 1,2,…,p.

23 Intro MVDA - DRGB – Septiembre 2011 [23] PCAE -PCAPLSE - PLSQ Chart Si p variables son consideradas, existen p PCs: PC 1 = α 11 X 1 + α 12 X 2 + … + α 1p X p PC 2 = α 21 X 1 + α 22 X 2 + … + α 2p X p : PC p = α p1 X 1 + α p2 X 2 + … + α pp X p Si p variables son consideradas, existen p PCs: PC 1 = α 11 X 1 + α 12 X 2 + … + α 1p X p PC 2 = α 21 X 1 + α 22 X 2 + … + α 2p X p : PC p = α p1 X 1 + α p2 X 2 + … + α pp X p

24 Intro MVDA - DRGB – Septiembre 2011 [24] PCAE -PCAPLSE - PLSQ Chart  El primer PC contiene la mayor proporción de la variabilidad.  El segundo PC contiene la segunda mayor proporción de la variabilidad, así sucesivamente….  El primer PC contiene la mayor proporción de la variabilidad.  El segundo PC contiene la segunda mayor proporción de la variabilidad, así sucesivamente….

25 Intro MVDA - DRGB – Septiembre 2011 [25] PCAE -PCAPLSE - PLSQ Chart Dos Componentes Principales PC2 PC1

26 Intro MVDA - DRGB – Septiembre 2011 [26] PCAE -PCAPLSE - PLSQ Chart Matriz de Covarianza: σ ii = Var(X i ) para i = 1,2,…,p σ ij = Cov(X i,X j ) para i ≠ j = 1,2,…,p Matriz de Covarianza: σ ii = Var(X i ) para i = 1,2,…,p σ ij = Cov(X i,X j ) para i ≠ j = 1,2,…,p

27 Intro MVDA - DRGB – Septiembre 2011 [27] PCAE -PCAPLSE - PLSQ Chart Coeficiente de Correlación: ρ ij = coeficiente de correlación entre X i and X j para i ≠ j = 1,2,…,p. -1 ≤ ρ ij ≤ 1 para cada i ≠ j Coeficiente de Correlación: ρ ij = coeficiente de correlación entre X i and X j para i ≠ j = 1,2,…,p. -1 ≤ ρ ij ≤ 1 para cada i ≠ j

28 Intro MVDA - DRGB – Septiembre 2011 [28] PCAE -PCAPLSE - PLSQ Chart Matriz de Correlación: ρ ij = coeficiente de correlación entre X i and X j for i ≠ j = 1,2,…,p. Matriz de Correlación: ρ ij = coeficiente de correlación entre X i and X j for i ≠ j = 1,2,…,p.

29 Intro MVDA - DRGB – Septiembre 2011 [29] PCAE -PCAPLSE - PLSQ Chart Interpretación de Centralización Tomado de: IBS Caribe, Presentation on Chemometrics and Multivariate Model Development. Centralización y Varianza Unitaria Tomado de: IBS Caribe,Inc. presentation on Chemometrics Simca – realiza este pretratamiento por default Simca – realiza este pretratamiento por default

30 Intro MVDA - DRGB – Septiembre 2011 [30] PCAE -PCAPLSE - PLSQ Chart  Estandarización de los datos: necesaria para tener las variables en unidades comparables (codificación).  A esta estandarización se le conoce como “Standard Normal Variate Transformation” o “SNV correction” en pre-tratamiento espectral.  Estandarización de los datos: necesaria para tener las variables en unidades comparables (codificación).  A esta estandarización se le conoce como “Standard Normal Variate Transformation” o “SNV correction” en pre-tratamiento espectral.

31 Intro MVDA - DRGB – Septiembre 2011 [31] PCAE -PCAPLSE - PLSQ Chart Datos Estandarizados: son el promedio y desviación estándar de cada variable para todas las observaciones. Datos Estandarizados: son el promedio y desviación estándar de cada variable para todas las observaciones.

32 Intro MVDA - DRGB – Septiembre 2011 [32] PCAE -PCAPLSE - PLSQ Chart Matrix de Datos Estandarizados: Las filas corresponden a las unidades experimentales y las columnas a las características Matrix de Datos Estandarizados: Las filas corresponden a las unidades experimentales y las columnas a las características

33 Intro MVDA - DRGB – Septiembre 2011 [33] PCAE -PCAPLSE - PLSQ Chart  Las variables deben ser estandarizadas si son medidas en escalas muy diferentes o si sus varianzas difieren siginificativamente.  Usar la matriz de correlación para calcular los componentes principales PC’s es equivalente a estandarizar los datos.  La matriz de covarianza se utiliza cuando no es necesario estandarizar los datos.  Las variables deben ser estandarizadas si son medidas en escalas muy diferentes o si sus varianzas difieren siginificativamente.  Usar la matriz de correlación para calcular los componentes principales PC’s es equivalente a estandarizar los datos.  La matriz de covarianza se utiliza cuando no es necesario estandarizar los datos.

34 Intro MVDA - DRGB – Septiembre 2011 [34] PCAE -PCAPLSE - PLSQ Chart  Los componentes principales de un conjunto de variables del proceso x 1, x 2, ….., x p, son unas combinaciones lineales particulares de estas variables. z 1 = c 11 x 1 + c 12 x 2 + … + c 1p x p z 2 = c 21 x 1 + c 22 x 2 + … + c 2p x p ::: z p = c p1 x 1 + c p2 x 2 + … + c pp x p  Los componentes principales de un conjunto de variables del proceso x 1, x 2, ….., x p, son unas combinaciones lineales particulares de estas variables. z 1 = c 11 x 1 + c 12 x 2 + … + c 1p x p z 2 = c 21 x 1 + c 22 x 2 + … + c 2p x p ::: z p = c p1 x 1 + c p2 x 2 + … + c pp x p

35 Intro MVDA - DRGB – Septiembre 2011 [35] PCAE -PCAPLSE - PLSQ Chart  C ij’s son constantes que se obtienen de los vectores propios (eigenvectors).  Las variables de los componentes principales z1, z2, …., zp son los ejes de un nuevo sistema de coordenadas que se obtienen de rotar el sistema original de ejes (basado en las x’s).  Los nuevos ejes representan las direcciones de máxima variabilidad.  C ij’s son constantes que se obtienen de los vectores propios (eigenvectors).  Las variables de los componentes principales z1, z2, …., zp son los ejes de un nuevo sistema de coordenadas que se obtienen de rotar el sistema original de ejes (basado en las x’s).  Los nuevos ejes representan las direcciones de máxima variabilidad.

36 Intro MVDA - DRGB – Septiembre 2011 [36] PCAE -PCAPLSE - PLSQ Chart  Encontrar los c ij’s es relativamente fácil.  Si las variables x 1, x 2, …, x p se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ 1 > λ 2 > …. λ p > 0.  Entonces las constantes c ij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.  La varianza del componente principal i es el “eigenvalue” i, λ i.  La proporción de la variabilidad explicada por el componente principal i está dado por:  Encontrar los c ij’s es relativamente fácil.  Si las variables x 1, x 2, …, x p se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ 1 > λ 2 > …. λ p > 0.  Entonces las constantes c ij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.  La varianza del componente principal i es el “eigenvalue” i, λ i.  La proporción de la variabilidad explicada por el componente principal i está dado por:

37  Encontrar los c ij’s es relativamente fácil.  Si las variables x 1, x 2, …, x p se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ 1 > λ 2 > …. λ p > 0.  Entonces las constantes c ij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.  La varianza del componente principal i es el “eigenvalue” i, λ i.  La proporción de la variabilidad explicada por el componente principal i está dado por:  Encontrar los c ij’s es relativamente fácil.  Si las variables x 1, x 2, …, x p se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ 1 > λ 2 > …. λ p > 0.  Entonces las constantes c ij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.  La varianza del componente principal i es el “eigenvalue” i, λ i.  La proporción de la variabilidad explicada por el componente principal i está dado por: Intro MVDA - DRGB – Septiembre 2011 [37] PCAE -PCAPLSE - PLSQ Chart

38 Intro MVDA - DRGB – Septiembre 2011 [38] PCAE -PCAPLSE - PLSQ Chart  Los vectores propios (eigenvectors) proveen los coeficientes para los PC’s:  PC 1 = α 11 Z 1 + α 12 Z 2 + … + α 1p Z p  Los valores propios (eigenvalues) corresponden a las varianzas de los PC’s.  λ 1, λ 2, …, λ p  Los vectores propios (eigenvectors) proveen los coeficientes para los PC’s:  PC 1 = α 11 Z 1 + α 12 Z 2 + … + α 1p Z p  Los valores propios (eigenvalues) corresponden a las varianzas de los PC’s.  λ 1, λ 2, …, λ p  La suma de las varianzas de las variables originales es igual a la suma de las varianzas de los PC’s.

39 Intro MVDA - DRGB – Septiembre 2011 [39] PCAE -PCAPLSE - PLSQ Chart

40 Intro MVDA - DRGB – Septiembre 2011 [40] PCAE -PCAPLSE - PLSQ Chart

41 Intro MVDA - DRGB – Septiembre 2011 [41] PCAE -PCAPLSE - PLSQ Chart ¿Cuantos PC’s?  “Scree Plot” – “estado estable”  Porcentaje de la Varianza  Criterio: Eigenvalues > 1 – Matriz de Correlación ¿Cuantos PC’s?  “Scree Plot” – “estado estable”  Porcentaje de la Varianza  Criterio: Eigenvalues > 1 – Matriz de Correlación

42 Intro MVDA - DRGB – Septiembre 2011 [42] PCAE -PCAPLSE - PLSQ Chart Figure 7: “Scree Plot” (Matriz de Covarianza)

43 Intro MVDA - DRGB – Septiembre 2011 [43] PCAE -PCAPLSE - PLSQ Chart ¿Cuantos PC’s?  Porcentaje de la varianza  Puede decidir mantener los PCs que expliquen el 85% de la varianza, por ejemplo. ¿Cuantos PC’s?  Porcentaje de la varianza  Puede decidir mantener los PCs que expliquen el 85% de la varianza, por ejemplo.

44 Intro MVDA - DRGB – Septiembre 2011 [44] PCAE -PCAPLSE - PLSQ Chart ¿Cuántos PC’s? Criterio Eigenvalue > 1: los eigenvalues son las varianzas de los PCs; por lo tanto, cuando usamos variables estandarizadas (matriz de correlación), se pueden considerar todos los PCs cuyo eigenvalue sea mayor de 1. ¿Cuántos PC’s? Criterio Eigenvalue > 1: los eigenvalues son las varianzas de los PCs; por lo tanto, cuando usamos variables estandarizadas (matriz de correlación), se pueden considerar todos los PCs cuyo eigenvalue sea mayor de 1. Scree Plot (Matriz de Correlacion)

45 Intro MVDA - DRGB – Septiembre 2011 [45] PCAE -PCAPLSE - PLSQ Chart Tradeoff entre el número de componentes y el “overfitting” R 2 – goodness of fit Q 2 – goodness of prediction R 2 – goodness of fit Q 2 – goodness of prediction

46 Intro MVDA - DRGB – Septiembre 2011 [46] PCAE -PCAPLSE - PLSQ Chart  Seleccione las variables para el análisis.  Decida si utilizara datos estandarizados, o,  Seleccione la matriz a utilizarse: matriz de covarianza ∑ o matriz de correlación P.  Determine el numero de PCs significativos.  Interprete los PCs (cuando sea posible).  Use los PCs estudios futuros.  Seleccione las variables para el análisis.  Decida si utilizara datos estandarizados, o,  Seleccione la matriz a utilizarse: matriz de covarianza ∑ o matriz de correlación P.  Determine el numero de PCs significativos.  Interprete los PCs (cuando sea posible).  Use los PCs estudios futuros.

47 Intro MVDA - DRGB – Septiembre 2011 [47] PCAE -PCAPLSE - PLSQ Chart  “Scores plots”:  Muestra las observationes proyectadas en el hiper-plano creado por los PCs.  Muestra un resumen de la relacion entre las observaciones.  “Scores plots”:  Muestra las observationes proyectadas en el hiper-plano creado por los PCs.  Muestra un resumen de la relacion entre las observaciones. Score Plot

48 Intro MVDA - DRGB – Septiembre 2011 [48] PCAE -PCAPLSE - PLSQ Chart  Loadings plots:  Muestra la relación entre distintas variables.  Los “loadings” son los pesos que combinan las variables originales para obtener los scores.  Geométricamente, representan la dirección de los PCs.  La dirección del plano de proyección provee información sobre la importancia de las variables.  Loadings plots:  Muestra la relación entre distintas variables.  Los “loadings” son los pesos que combinan las variables originales para obtener los scores.  Geométricamente, representan la dirección de los PCs.  La dirección del plano de proyección provee información sobre la importancia de las variables.

49 Intro MVDA - DRGB – Septiembre 2011 [49] PCAE -PCAPLSE - PLSQ Chart Loading Plot

50 Intro MVDA - DRGB – Septiembre 2011 [50] PCAE -PCAPLSE - PLSQ Chart Escuela % de RetenciónGPA_ESPGPA-INGGPA-MATT_PromedioProportion A0.9090913.035023.062762.107365.1130.714571 B0.8690103.026402.938061.991095.3350.678788 D0.8640782.859262.786101.793925.3450.674847 E0.8498293.238673.117572.231595.5250.689655 F0.8240742.815702.715281.812695.7420.603896 H0.8197883.249213.369932.428334.8220.743590 A0.8187502.663532.580261.811615.5230.542857 I0.7868062.719012.592161.633735.6250.536278 J0.7863012.706992.893891.726685.5660.515789 K0.7378642.807343.129582.011355.6360.578947 L0.6447762.343042.280701.366985.9540.393939 Escuela % de RetenciónGPA_ESPGPA-INGGPA-MATT_PromedioProportion A0.9090913.035023.062762.107365.1130.714571 B0.8690103.026402.938061.991095.3350.678788 D0.8640782.859262.786101.793925.3450.674847 E0.8498293.238673.117572.231595.5250.689655 F0.8240742.815702.715281.812695.7420.603896 H0.8197883.249213.369932.428334.8220.743590 A0.8187502.663532.580261.811615.5230.542857 I0.7868062.719012.592161.633735.6250.536278 J0.7863012.706992.893891.726685.5660.515789 K0.7378642.807343.129582.011355.6360.578947 L0.6447762.343042.280701.366985.9540.393939

51 Intro MVDA - DRGB – Septiembre 2011 [51] PCAE -PCAPLSE - PLSQ Chart Eigenanalysis of the Correlation Matrix Eigenvalue 4.9869 0.5929 0.2739 0.0803 0.0404 0.0257 Proportion 0.831 0.099 0.046 0.013 0.007 0.004 Cumulative 0.831 0.930 0.976 0.989 0.996 1.000 Variable PC1 PC2 PC3 PC4 PC5 PC6 % de Retención 0.352 0.774 -0.188 -0.401 0.278 0.053 GPA_ESP 0.433 -0.074 -0.342 0.449 -0.059 0.696 GPA-ING 0.403 -0.492 -0.113 -0.713 -0.261 0.080 GPA-MAT 0.425 -0.337 -0.135 0.198 0.677 -0.437 Tiempo_Promedio -0.395 -0.040 -0.900 -0.055 -0.044 -0.168 Proportion 0.435 0.194 -0.087 0.294 -0.626 -0.536 Eigenanalysis of the Correlation Matrix Eigenvalue 4.9869 0.5929 0.2739 0.0803 0.0404 0.0257 Proportion 0.831 0.099 0.046 0.013 0.007 0.004 Cumulative 0.831 0.930 0.976 0.989 0.996 1.000 Variable PC1 PC2 PC3 PC4 PC5 PC6 % de Retención 0.352 0.774 -0.188 -0.401 0.278 0.053 GPA_ESP 0.433 -0.074 -0.342 0.449 -0.059 0.696 GPA-ING 0.403 -0.492 -0.113 -0.713 -0.261 0.080 GPA-MAT 0.425 -0.337 -0.135 0.198 0.677 -0.437 Tiempo_Promedio -0.395 -0.040 -0.900 -0.055 -0.044 -0.168 Proportion 0.435 0.194 -0.087 0.294 -0.626 -0.536

52 Intro MVDA - DRGB – Septiembre 2011 [52] PCAE -PCAPLSE - PLSQ Chart Ejemplo Escuelas: Model Overview

53 Intro MVDA - DRGB – Septiembre 2011 [53] PCAE -PCAPLSE - PLSQ Chart Ejemplo Escuelas: Scores Plot

54 Intro MVDA - DRGB – Septiembre 2011 [54] PCAE -PCAPLSE - PLSQ Chart Ejemplo Escuelas: Loadings Plot

55 PLS

56 Intro MVDA - DRGB – Septiembre 2011 [56] PCAE -PCAPLSE - PLSQ Chart  PLS es un método para construir modelos de predicción cuando existen múltiples variables y una alta (relación) entre las mismas.  PLS es una extensión de regresión a PCA, que es utilizado para conectar la información de dos bloques de variables, X e Y.  PLS es un método para construir modelos de predicción cuando existen múltiples variables y una alta (relación) entre las mismas.  PLS es una extensión de regresión a PCA, que es utilizado para conectar la información de dos bloques de variables, X e Y.

57 Intro MVDA - DRGB – Septiembre 2011 [57] PCAE -PCAPLSE - PLSQ Chart  PLS intenta encontrar unos pocos factores fundamentales o latentes que explican la mayor parte de la variabilidad en las respuestas.  La idea es extraer estos factores latentes mientras se modela adecuadamente las respuestas.  PLS intenta encontrar unos pocos factores fundamentales o latentes que explican la mayor parte de la variabilidad en las respuestas.  La idea es extraer estos factores latentes mientras se modela adecuadamente las respuestas.

58 Intro MVDA - DRGB – Septiembre 2011 [58] PCAE -PCAPLSE - PLSQ Chart X FACTORES/PREDICTORES K OBSERVACIONES, OBJETOS, MUESTRAS, CASOS, ÍTEMS N RESPUESTAS M OBSERVACIONES, OBJETOS, MUESTRAS, CASOS, ÍTEMS N PLS Y

59 Intro MVDA - DRGB – Septiembre 2011 [59] PCAE -PCAPLSE - PLSQ Chart K = 3, M = 1, dos nubes de puntos

60 Intro MVDA - DRGB – Septiembre 2011 [60] PCAE -PCAPLSE - PLSQ Chart K = 3, M = 3, dos nubes de puntos

61 Intro MVDA - DRGB – Septiembre 2011 [61] PCAE -PCAPLSE - PLSQ Chart Primer Componente, ambos espacios Score Vectors

62 Intro MVDA - DRGB – Septiembre 2011 [62] PCAE -PCAPLSE - PLSQ Chart Segundo Componente, ambos espacios Línea de segundo componente de X Ortogonal a la primera, esto no es necesariamente cierto para el espacio Y Línea de segundo componente de X Ortogonal a la primera, esto no es necesariamente cierto para el espacio Y

63 Intro MVDA - DRGB – Septiembre 2011 [63] PCAE -PCAPLSE - PLSQ Chart Score vectors, otros componentes El segundo par de “score vectors” (t2, u2), Correlacionan, pero regularmente menos que el primer componente El segundo par de “score vectors” (t2, u2), Correlacionan, pero regularmente menos que el primer componente

64 Intro MVDA - DRGB – Septiembre 2011 [64] PCAE -PCAPLSE - PLSQ Chart Modelaje Indirecto Tomado de: An Introduction to Partial Least Squares Regression by Randall D. Tobias

65 Intro MVDA - DRGB – Septiembre 2011 [65] PCAE -PCAPLSE - PLSQ Chart Ejemplo: el archivo LOWARP, suministrado por Umetrics, es un ejemplo donde tenemos 17 observaciones (mezclas) de una cubierta de plástico para un celular. Cuatro componentes son utilizados en la mezcla. El objetivo del estudio es el de conseguir cubiertas con poca deformación (warpage) y alto esfuerzo (strength). Catorce respuestas relacionadas a las deformaciones y el esfuerzo son medidas en la cubierta.

66 Intro MVDA - DRGB – Septiembre 2011 [66] PCAE -PCAPLSE - PLSQ Chart Base de Datos – LOWARP Respuestas - Y Factores - X

67 Intro MVDA - DRGB – Septiembre 2011 [67] PCAE -PCAPLSE - PLSQ Chart LOWARP – Weight Plot

68 Intro MVDA - DRGB – Septiembre 2011 [68] PCAE -PCAPLSE - PLSQ Chart LOWARP – Observed vs Predicted

69 Intro MVDA - DRGB – Septiembre 2011 [69] PCAE -PCAPLSE - PLSQ Chart Tres Componentes Dos Componentes

70 Intro MVDA - DRGB – Septiembre 2011 [70] PCAE -PCAPLSE - PLSQ Chart t1/t2 - Score plot Biplot

71 Intro MVDA - DRGB – Septiembre 2011 [71] PCAE -PCAPLSE - PLSQ Chart Interpretación de los “weights”

72 Intro MVDA - DRGB – Septiembre 2011 [72] PCAE -PCAPLSE - PLSQ Chart Coeficientes de variables correlacionadas wrp1 y wrp2

73 Intro MVDA - DRGB – Septiembre 2011 [73] PCAE -PCAPLSE - PLSQ Chart Coeficientes de variables no correlacionadas wrp4 y st4

74 Intro MVDA - DRGB – Septiembre 2011 [74] PCAE -PCAPLSE - PLSQ Chart VIP – Variance Influence on projection

75 Intro MVDA - DRGB – Septiembre 2011 [75] PCAE -PCAPLSE - PLSQ Chart Diagnóstico de observaciones – “outliers” p “non-linearities” Una observación puede ser un outlier en X en Y y/o en la relación entre X e Y. Cuatro score Plots pueden ayudar: t1/u1, t2/u2, t1/t2 y u1/u2 La no-linearidad entre X e Y Puede ser observada en los scores tj/uj La no-linearidad entre X e Y Puede ser observada en los scores tj/uj

76 Intro MVDA - DRGB – Septiembre 2011 [76] PCAE -PCAPLSE - PLSQ Chart t1/u1 - Score plot Indica una correlación alta entre Los factores y las respuestas; no parecen existir “outliers”. Indica una correlación alta entre Los factores y las respuestas; no parecen existir “outliers”. t2/u2 - Score plot En general se observa una correlación alta entre los factores y las respuestas; puntos 6,11, 12 son como diferentes

77 Intro MVDA - DRGB – Septiembre 2011 [77] PCAE -PCAPLSE - PLSQ Chart  t/t score útil para encontrar desviaciones en X  u/u plot – útil para encontrar desviaciones en Y  t/u plot – útil para encontrar desviaciones de la correlación existente entre X e Y. Además es útil para desviaciones a la linearidad entre X e Y.  DmodX/DmodY, muestra la distancia de cada observación al modelo en el espacio X/Y y pueden ayudar a detectar “outliers” moderados  t/t score útil para encontrar desviaciones en X  u/u plot – útil para encontrar desviaciones en Y  t/u plot – útil para encontrar desviaciones de la correlación existente entre X e Y. Además es útil para desviaciones a la linearidad entre X e Y.  DmodX/DmodY, muestra la distancia de cada observación al modelo en el espacio X/Y y pueden ayudar a detectar “outliers” moderados

78 Intro MVDA - DRGB – Septiembre 2011 [78] PCAE -PCAPLSE - PLSQ Chart DMOD- distancia al modelo – detect “outliers”moderados DMODX DMODY

79 Intro MVDA - DRGB – Septiembre 2011 [79] PCAE -PCAPLSE - PLSQ Chart R2VX- variación explicada de los predictores X Primer Componente DMODY

80 Hotelling, PCA

81 Variables Independendientes Variables Dendendientes Intro MVDA - DRGB – Septiembre 2011 [81] PCAE -PCAPLSE - PLSQ Chart

82 Hotelling T 2 Fase I – uso de los gráficos de control para establecer control (obtener límites adecuados) Fase II – monitoreo de observaciones futuras m = # de muestras, n = tamaño de muestra p = # de variables Fase I – uso de los gráficos de control para establecer control (obtener límites adecuados) Fase II – monitoreo de observaciones futuras m = # de muestras, n = tamaño de muestra p = # de variables Intro MVDA - DRGB – Septiembre 2011 [82] PCAE -PCAPLSE - PLSQ Chart

83 Intro MVDA - DRGB – Septiembre 2011 [83] PCAE -PCAPLSE - PLSQ Chart

84 Promedios Varianzas Cov / Corr Intro MVDA - DRGB – Septiembre 2011 [84] PCAE -PCAPLSE - PLSQ Chart

85 Intro MVDA - DRGB – Septiembre 2011 [85] PCAE -PCAPLSE - PLSQ Chart

86 Intro MVDA - DRGB – Septiembre 2011 [86] PCAE -PCAPLSE - PLSQ Chart T Square 3.56183 3.63906 0.62709 7.97026 2.09700 2.75502 0.41027 1.48648 0.91915 3.87732 T Square 3.56183 3.63906 0.62709 7.97026 2.09700 2.75502 0.41027 1.48648 0.91915 3.87732 MEAN1MEAN2 118.43367.6 MEAN1MEAN2 118.43367.6 COV 244.000 234.367 234.367 383.167 COV 244.000 234.367 234.367 383.167

87 Intro MVDA - DRGB – Septiembre 2011 [87] PCAE -PCAPLSE - PLSQ Chart  Uno de los retos en estos gráficos cuando ocurre una señal de fuera de control es distinguir o diagnosticar cual o cuales de las variables son las que han cambiado su comportamiento. Entre los métodos sugeridos para el disgnóstico se encuentran:  Gráficos Univariados usando límites Bonferroni  Usar Componentes Principales  Descomposición de T 2 d i = T 2 – T 2 (i) donde T 2 (i) – la estadística T 2 sin la variable I, valores de d i altos indican variables sospechosas  Otro reto con estas variables es la estinmación de la matriz de covarianza y el vector de promedios

88 Intro MVDA - DRGB – Septiembre 2011 [88] PCAE -PCAPLSE - PLSQ Chart  Los gráficos de Control Multivariados son efectivos en la medida en que p, el número de variables del proceso a monitorearse no sea muy grande.  A medida que p aumenta el ARL de detectar un cambio particular también aumenta, porque el cambio se “diluye” en el espacio dimesional de las p variables del proceso.  Los gráficos de Control Multivariados son efectivos en la medida en que p, el número de variables del proceso a monitorearse no sea muy grande.  A medida que p aumenta el ARL de detectar un cambio particular también aumenta, porque el cambio se “diluye” en el espacio dimesional de las p variables del proceso.  Métodos para descubrir el subconjunto de variables que operan sobre el proceso se le conocen como “Latent Structure Methods”.  Uno de estos métodos es el de componentes principales PCA – siglas en inglés).  Métodos para descubrir el subconjunto de variables que operan sobre el proceso se le conocen como “Latent Structure Methods”.  Uno de estos métodos es el de componentes principales PCA – siglas en inglés).

89 Intro MVDA - DRGB – Septiembre 2011 [89] PCAE -PCAPLSE - PLSQ Chart

90 Intro MVDA - DRGB – Septiembre 2011 [90] PCAE -PCAPLSE - PLSQ Chart Correlations: X1, X2, X3, X4 X1 X2 X3 X2 0.930 X3 0.206 0.167 X4 0.359 0.450 0.344 Correlations: X1, X2, X3, X4 X1 X2 X3 X2 0.930 X3 0.206 0.167 X4 0.359 0.450 0.344 Type: PCA-X Observations (N)=20, Variables (K)=4 (X=4, Y=0)

91 Intro MVDA - DRGB – Septiembre 2011 [91] PCAE -PCAPLSE - PLSQ Chart Principal Component Analysis: X1, X2, X3, X4 Eigenanalysis of the Correlation Matrix Eigenvalue 2.3181 1.0118 0.6088 0.0613 Proportion 0.580 0.253 0.152 0.015 Cumulative 0.580 0.832 0.985 1.000 Variable PC1 PC2 PC3 PC4 X1 0.594 -0.334 0.257 0.685 X2 0.607 -0.330 0.083 -0.718 X3 0.286 0.794 0.534 -0.061 X4 0.444 0.387 -0.801 0.104

92 Intro MVDA - DRGB – Septiembre 2011 [92] PCAE -PCAPLSE - PLSQ Chart

93 Intro MVDA - DRGB – Septiembre 2011 [93] PCAE -PCAPLSE - PLSQ Chart

94 Variables OriginalesZ Scores Intro MVDA - DRGB – Septiembre 2011 [94] PCAE -PCAPLSE - PLSQ Chart

95 Intro MVDA - DRGB – Septiembre 2011 [95] PCAE -PCAPLSE - PLSQ Chart

96 Intro MVDA - DRGB – Septiembre 2011 [96] PCAE -PCAPLSE - PLSQ Chart Hotelling T2 – monitoreo multivariado Pesos señal de fuera de control – obs. 23


Descargar ppt "David R. González Barreto Universidad de Puerto Rico."

Presentaciones similares


Anuncios Google