David R. González Barreto Universidad de Puerto Rico.

Slides:



Advertisements
Presentaciones similares
¿ Que es una muestra?.
Advertisements

Análisis de Correspondencia
ANALISIS PARAMÉTRICOS
Tema 6: Regresión lineal.
Tema.9.Predicción y estimación. Concepto. Cálculo de la ecuación de regresión lineal. Modelo general lineal. Evaluación del modelo. Diagnóstico del modelo.
4. ANÁLISIS FACTORIAL Introducción Modelo factorial ortogonal
REGRESION LINEAL SIMPLE
ANÁLISIS EXPLORATORIO DE DATOS
KRIGING.
MODELO DE REGRESIÓN MÚLTIPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
Diseño de Experimentos
ANÁLISIS DE CORRESPONDENCIAS SIMPLE
MUESTREO DE ACEPTACIÓN DE LOTES POR VARIABLES
METABOLOMICS PCA – Principal Component Analysis. Modelos y Datos  Todos los estudios arrojan datos  En cada estudio se miden variables.
Estadística Descriptiva: 4. Correlación y Regresión Lineal
COEFICIENTE DE CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Análisis de correlación.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
9 Regresión Lineal Simple
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
FUNCIONES DE DENSIDAD DE PROBABILIDAD
Control estadístico de Proceso
Técnicas estadísticas paramétricas univariantes: regresión
PROBLEMAS ECONOMETRICOS
Estadística aplicada al análisis financiero
Curso de Bioestadística. ANOVA
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
DISTRIBUCIONES DE MUESTREO
ESTADÍSTICAS DESCRIPTIVA
Medidas de Variabilidad
Métodos de calibración: regresión y correlación
3. Análisis de Correspondencias Simples
Universidad Central de Venezuela Facultad de Agronomía Cátedra de Estadística 1.
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Herramientas básicas.
ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro.
Análisis de correspondencia canónica (CCA)
ANÁLISIS MULTIVARIANTE
Introducción al Biclustering
3. COMPONENTES PRINCIPALES
CO-2124 Análisis de Varianza con Un Criterio de Clasificación En clases anteriores se deseaba determinar si existían diferencias entre las medias de dos.
DISTRIBUCIONES MUESTRALES
coeficientes de correlación de
Métodos Cuantitativos
Estimación y contraste de hipótesis
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
PLANES DE MUESTREO Y GRAFICAS DE CONTROL
Aplicaciones Estadísticas a las Finanzas Clase 1
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
RIESGO, RENDIMIENTO Y VALOR
Control Estadístico de Procesos
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Regresión lineal simple Nazira Calleja
Diferencias individuales y correlaciones
Unidad 4 Análisis de los Datos.
REGRESIÓN LINEAL MÚLTIPLE.
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
Aplicaciones Estadísticas a las Finanzas Clase 1
REGRESIÓN LINEAL SIMPLE
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
METODO DE MAXIMA PENDIENTE
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

David R. González Barreto Universidad de Puerto Rico

Intro MVDA - DRGB – Septiembre 2011 [2] PCAE -PCAPLSE - PLSQ Chart  La habilidad de capturar datos hace tiempo le viene ganando la carrera a la habilidad de obtener información significativa de estos datos.  Es necesario hacer uso de herramientas analíticas adecuadas que extraigan información sustantiva de grandes bases de datos.  La habilidad de capturar datos hace tiempo le viene ganando la carrera a la habilidad de obtener información significativa de estos datos.  Es necesario hacer uso de herramientas analíticas adecuadas que extraigan información sustantiva de grandes bases de datos.

Intro MVDA - DRGB – Septiembre 2011 [3] PCAE -PCAPLSE - PLSQ Chart  Existen muchas situaciones (típico de PAT) en donde es necesario la medición y/o monitoreo simultáneo de múltiples variables de proceso o de calidad.  El monitoreo independiente de estas características puede llevarnos a decisiones erróneas con respecto al estado del proceso o producto.  Existen muchas situaciones (típico de PAT) en donde es necesario la medición y/o monitoreo simultáneo de múltiples variables de proceso o de calidad.  El monitoreo independiente de estas características puede llevarnos a decisiones erróneas con respecto al estado del proceso o producto.

Intro MVDA - DRGB – Septiembre 2011 [4] PCAE -PCAPLSE - PLSQ Chart  Si m pruebas independientes univariadas son realizadas, cada una con probabilidad α de cometer el Error Tipo I, la probabilidad global de cometer este error para todas las pruebas está dado por: α glogal = 1 – (1 – α ) m  Si m pruebas independientes univariadas son realizadas, cada una con probabilidad α de cometer el Error Tipo I, la probabilidad global de cometer este error para todas las pruebas está dado por: α glogal = 1 – (1 – α ) m Ejemplo: 10 pruebas con α = 0.05 α global = 1 – ( ) 10 α global = 1 – = Ejemplo: 10 pruebas con α = 0.05 α global = 1 – ( ) 10 α global = 1 – =

Univariados Control para dos variables Intro MVDA - DRGB – Septiembre 2011 [5] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [6] PCAE -PCAPLSE - PLSQ Chart VARIABLES K OBSERVACIONES, OBJETOS, MUESTRAS, CASOS, ÍTEMS N Complejidad de los datosNúmero de variables UnivariadoK = 1 BivariadoK = 2 “Low Variate”K < 5 MultivariateK > 5

Intro MVDA - DRGB – Septiembre 2011 [7] PCAE -PCAPLSE - PLSQ Chart  Visión general de los datos (data overview)  Clasificación y/o discriminación entre grupos de observaciones  Regresión y modelaje entre dos bloques de datos (X y Y)  Visión general de los datos (data overview)  Clasificación y/o discriminación entre grupos de observaciones  Regresión y modelaje entre dos bloques de datos (X y Y)

Intro MVDA - DRGB – Septiembre 2011 [8] PCAE -PCAPLSE - PLSQ Chart X XY I II III Visión general de los datos Clasificación y/o discriminación entre grupos de observaciones Regresión y modelaje entre dos bloques de datos (X y Y) PCA PLS

Intro MVDA - DRGB – Septiembre 2011 [9] PCAE -PCAPLSE - PLSQ Chart Datos del Proceso X Datos de Calidad, Productividad Y Existen Técnicas para: Explicar la variación en X ó Y (PCA) - mientras maximiza la Varianza (X) ó (Y) Explicar la variación en X e Y y la relación entre X e Y (PLS) - mientras maximiza la Covarianza (X,Y) Existen Técnicas para: Explicar la variación en X ó Y (PCA) - mientras maximiza la Varianza (X) ó (Y) Explicar la variación en X e Y y la relación entre X e Y (PLS) - mientras maximiza la Covarianza (X,Y) Temperatura, Presión, Velocidad, Nivel de fluido, Ph, concentración, rendimiento, ……, Peso, Dureza, Grosor, Potencia, Presión, Velocidad, Content Uniformity, Disolución, ……

Intro MVDA - DRGB – Septiembre 2011 [10] PCAE -PCAPLSE - PLSQ Chart  Las bases de MVDA pueden ser delineadas en términos de la geometría de espacios multidimensionales.  Los datos multivariados y sus modelos pueden representarse como puntos, líneas, planos e hiperplanos en éstos espacios multidimensionales.  Las bases de MVDA pueden ser delineadas en términos de la geometría de espacios multidimensionales.  Los datos multivariados y sus modelos pueden representarse como puntos, líneas, planos e hiperplanos en éstos espacios multidimensionales.

Intro MVDA - DRGB – Septiembre 2011 [11] PCAE -PCAPLSE - PLSQ Chart Suponga que K = 3, esto es existen 3 variables. Cada observación puede ser representada en un conjunto de ejes, un espacio tridimensional

Intro MVDA - DRGB – Septiembre 2011 [12] PCAE -PCAPLSE - PLSQ Chart El principio de representar cada observación como un punto en el espacio multidimensional hace posible convertir una tabla de datos en una representación gráfica. Todas las observaciones de X se desplegan en el espacio de dimensión K, como una nube de puntos. En esta gráfica se presentan 20 observaciones.

Intro MVDA - DRGB – Septiembre 2011 [13] PCAE -PCAPLSE - PLSQ Chart  El análisis de datos corresponde a formular una descripción cuantitativa de la forma de la nube de puntos. Este modelo puede verse como una ventana en el espacio tridimensional.  Esta ventana se orienta de forma tal que provee una visión general de los datos y permite su interpretación.  El principio detrás de esta converisón se conoce como proyección.  La proyección logra disminuir el espacio tridimensional original en un espacio bidimensional (la ventana). Examinando la posición de cada observación en la ventana obetenemos una visión general de los datos.  El análisis de datos corresponde a formular una descripción cuantitativa de la forma de la nube de puntos. Este modelo puede verse como una ventana en el espacio tridimensional.  Esta ventana se orienta de forma tal que provee una visión general de los datos y permite su interpretación.  El principio detrás de esta converisón se conoce como proyección.  La proyección logra disminuir el espacio tridimensional original en un espacio bidimensional (la ventana). Examinando la posición de cada observación en la ventana obetenemos una visión general de los datos.

Intro MVDA - DRGB – Septiembre 2011 [14] PCAE -PCAPLSE - PLSQ Chart  El principio de proyecciones puede ser matemáticamente extendedido a cualquier número de variables en el espacio K.  Ejemplo: el archivo FOODS, suministrado por Umetrics, es un ejemplo donde tenemos 16 observaciones (N) para cada una de 20 variables (K, K > N, imposible usar regresión). El objetivo del estudio es el de investigar patrones de consumo alimenticio en paises europeos.  El principio de proyecciones puede ser matemáticamente extendedido a cualquier número de variables en el espacio K.  Ejemplo: el archivo FOODS, suministrado por Umetrics, es un ejemplo donde tenemos 16 observaciones (N) para cada una de 20 variables (K, K > N, imposible usar regresión). El objetivo del estudio es el de investigar patrones de consumo alimenticio en paises europeos.

Intro MVDA - DRGB – Septiembre 2011 [15] PCAE -PCAPLSE - PLSQ Chart Base de Datos – FOODS.xls

Intro MVDA - DRGB – Septiembre 2011 [16] PCAE -PCAPLSE - PLSQ Chart K (20) > N (16)  Cada una de las 16 observaciones (países) se convierte en un punto de la nube de puntos en el espacio de veinte dimensiones.  Este espacio puede reducirse a muchas menos dimensiones extrayendo la información sustancial de los datos, proyectando cada observación en la ventana.  Note como los países nórdicos se agrupan en la parte superior.  Esta es la escencia de la metodología de PCA. K (20) > N (16)  Cada una de las 16 observaciones (países) se convierte en un punto de la nube de puntos en el espacio de veinte dimensiones.  Este espacio puede reducirse a muchas menos dimensiones extrayendo la información sustancial de los datos, proyectando cada observación en la ventana.  Note como los países nórdicos se agrupan en la parte superior.  Esta es la escencia de la metodología de PCA.

Intro MVDA - DRGB – Septiembre 2011 [17] PCAE -PCAPLSE - PLSQ Chart Ejemplo Foods: Score Plot Ejemplo Foods: Loadings Plot

Intro MVDA - DRGB – Septiembre 2011 [18] PCAE -PCAPLSE - PLSQ Chart Ejemplo Foods: Distance to Model: DMODX No se observan outliers, todos los países se ajustan bien al modelo

PCA

Intro MVDA - DRGB – Septiembre 2011 [20] PCAE -PCAPLSE - PLSQ Chart  PCA es un método para crear combinaciones lineales de las características originales que son ortogonales; a estas combinaciones se le llama los componentes principales (PC).  Los PCs, a través de las combinaciones lineales independientes intentan contienen la mayoría de la variabilidad de las características originales.  PCA es un método para crear combinaciones lineales de las características originales que son ortogonales; a estas combinaciones se le llama los componentes principales (PC).  Los PCs, a través de las combinaciones lineales independientes intentan contienen la mayoría de la variabilidad de las características originales.

Intro MVDA - DRGB – Septiembre 2011 [21] PCAE -PCAPLSE - PLSQ Chart  PCA se utiliza para encontrar las estructuras de correlación entre las múltiples variables.  La idea es encontrar un puñado de variables no correlacionadas, que son combinaciones lineales de las variables originales, que contengan la mayoría de la variabilidad de éstas. Por esta razón, se le conoce como una técnica de reducción de dimensiones.  PCA se utiliza para encontrar las estructuras de correlación entre las múltiples variables.  La idea es encontrar un puñado de variables no correlacionadas, que son combinaciones lineales de las variables originales, que contengan la mayoría de la variabilidad de éstas. Por esta razón, se le conoce como una técnica de reducción de dimensiones.

Intro MVDA - DRGB – Septiembre 2011 [22] PCAE -PCAPLSE - PLSQ Chart Matriz de Datos: Las filas corresponden a las unidades experimentales y las columnas a las características p: número de características consideradas n: número de unidades experimentales X rj : valor de la característica j en la unidad experimental r donde r = 1,2,…,n and j = 1,2,…,p. Matriz de Datos: Las filas corresponden a las unidades experimentales y las columnas a las características p: número de características consideradas n: número de unidades experimentales X rj : valor de la característica j en la unidad experimental r donde r = 1,2,…,n and j = 1,2,…,p.

Intro MVDA - DRGB – Septiembre 2011 [23] PCAE -PCAPLSE - PLSQ Chart Si p variables son consideradas, existen p PCs: PC 1 = α 11 X 1 + α 12 X 2 + … + α 1p X p PC 2 = α 21 X 1 + α 22 X 2 + … + α 2p X p : PC p = α p1 X 1 + α p2 X 2 + … + α pp X p Si p variables son consideradas, existen p PCs: PC 1 = α 11 X 1 + α 12 X 2 + … + α 1p X p PC 2 = α 21 X 1 + α 22 X 2 + … + α 2p X p : PC p = α p1 X 1 + α p2 X 2 + … + α pp X p

Intro MVDA - DRGB – Septiembre 2011 [24] PCAE -PCAPLSE - PLSQ Chart  El primer PC contiene la mayor proporción de la variabilidad.  El segundo PC contiene la segunda mayor proporción de la variabilidad, así sucesivamente….  El primer PC contiene la mayor proporción de la variabilidad.  El segundo PC contiene la segunda mayor proporción de la variabilidad, así sucesivamente….

Intro MVDA - DRGB – Septiembre 2011 [25] PCAE -PCAPLSE - PLSQ Chart Dos Componentes Principales PC2 PC1

Intro MVDA - DRGB – Septiembre 2011 [26] PCAE -PCAPLSE - PLSQ Chart Matriz de Covarianza: σ ii = Var(X i ) para i = 1,2,…,p σ ij = Cov(X i,X j ) para i ≠ j = 1,2,…,p Matriz de Covarianza: σ ii = Var(X i ) para i = 1,2,…,p σ ij = Cov(X i,X j ) para i ≠ j = 1,2,…,p

Intro MVDA - DRGB – Septiembre 2011 [27] PCAE -PCAPLSE - PLSQ Chart Coeficiente de Correlación: ρ ij = coeficiente de correlación entre X i and X j para i ≠ j = 1,2,…,p. -1 ≤ ρ ij ≤ 1 para cada i ≠ j Coeficiente de Correlación: ρ ij = coeficiente de correlación entre X i and X j para i ≠ j = 1,2,…,p. -1 ≤ ρ ij ≤ 1 para cada i ≠ j

Intro MVDA - DRGB – Septiembre 2011 [28] PCAE -PCAPLSE - PLSQ Chart Matriz de Correlación: ρ ij = coeficiente de correlación entre X i and X j for i ≠ j = 1,2,…,p. Matriz de Correlación: ρ ij = coeficiente de correlación entre X i and X j for i ≠ j = 1,2,…,p.

Intro MVDA - DRGB – Septiembre 2011 [29] PCAE -PCAPLSE - PLSQ Chart Interpretación de Centralización Tomado de: IBS Caribe, Presentation on Chemometrics and Multivariate Model Development. Centralización y Varianza Unitaria Tomado de: IBS Caribe,Inc. presentation on Chemometrics Simca – realiza este pretratamiento por default Simca – realiza este pretratamiento por default

Intro MVDA - DRGB – Septiembre 2011 [30] PCAE -PCAPLSE - PLSQ Chart  Estandarización de los datos: necesaria para tener las variables en unidades comparables (codificación).  A esta estandarización se le conoce como “Standard Normal Variate Transformation” o “SNV correction” en pre-tratamiento espectral.  Estandarización de los datos: necesaria para tener las variables en unidades comparables (codificación).  A esta estandarización se le conoce como “Standard Normal Variate Transformation” o “SNV correction” en pre-tratamiento espectral.

Intro MVDA - DRGB – Septiembre 2011 [31] PCAE -PCAPLSE - PLSQ Chart Datos Estandarizados: son el promedio y desviación estándar de cada variable para todas las observaciones. Datos Estandarizados: son el promedio y desviación estándar de cada variable para todas las observaciones.

Intro MVDA - DRGB – Septiembre 2011 [32] PCAE -PCAPLSE - PLSQ Chart Matrix de Datos Estandarizados: Las filas corresponden a las unidades experimentales y las columnas a las características Matrix de Datos Estandarizados: Las filas corresponden a las unidades experimentales y las columnas a las características

Intro MVDA - DRGB – Septiembre 2011 [33] PCAE -PCAPLSE - PLSQ Chart  Las variables deben ser estandarizadas si son medidas en escalas muy diferentes o si sus varianzas difieren siginificativamente.  Usar la matriz de correlación para calcular los componentes principales PC’s es equivalente a estandarizar los datos.  La matriz de covarianza se utiliza cuando no es necesario estandarizar los datos.  Las variables deben ser estandarizadas si son medidas en escalas muy diferentes o si sus varianzas difieren siginificativamente.  Usar la matriz de correlación para calcular los componentes principales PC’s es equivalente a estandarizar los datos.  La matriz de covarianza se utiliza cuando no es necesario estandarizar los datos.

Intro MVDA - DRGB – Septiembre 2011 [34] PCAE -PCAPLSE - PLSQ Chart  Los componentes principales de un conjunto de variables del proceso x 1, x 2, ….., x p, son unas combinaciones lineales particulares de estas variables. z 1 = c 11 x 1 + c 12 x 2 + … + c 1p x p z 2 = c 21 x 1 + c 22 x 2 + … + c 2p x p ::: z p = c p1 x 1 + c p2 x 2 + … + c pp x p  Los componentes principales de un conjunto de variables del proceso x 1, x 2, ….., x p, son unas combinaciones lineales particulares de estas variables. z 1 = c 11 x 1 + c 12 x 2 + … + c 1p x p z 2 = c 21 x 1 + c 22 x 2 + … + c 2p x p ::: z p = c p1 x 1 + c p2 x 2 + … + c pp x p

Intro MVDA - DRGB – Septiembre 2011 [35] PCAE -PCAPLSE - PLSQ Chart  C ij’s son constantes que se obtienen de los vectores propios (eigenvectors).  Las variables de los componentes principales z1, z2, …., zp son los ejes de un nuevo sistema de coordenadas que se obtienen de rotar el sistema original de ejes (basado en las x’s).  Los nuevos ejes representan las direcciones de máxima variabilidad.  C ij’s son constantes que se obtienen de los vectores propios (eigenvectors).  Las variables de los componentes principales z1, z2, …., zp son los ejes de un nuevo sistema de coordenadas que se obtienen de rotar el sistema original de ejes (basado en las x’s).  Los nuevos ejes representan las direcciones de máxima variabilidad.

Intro MVDA - DRGB – Septiembre 2011 [36] PCAE -PCAPLSE - PLSQ Chart  Encontrar los c ij’s es relativamente fácil.  Si las variables x 1, x 2, …, x p se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ 1 > λ 2 > …. λ p > 0.  Entonces las constantes c ij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.  La varianza del componente principal i es el “eigenvalue” i, λ i.  La proporción de la variabilidad explicada por el componente principal i está dado por:  Encontrar los c ij’s es relativamente fácil.  Si las variables x 1, x 2, …, x p se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ 1 > λ 2 > …. λ p > 0.  Entonces las constantes c ij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.  La varianza del componente principal i es el “eigenvalue” i, λ i.  La proporción de la variabilidad explicada por el componente principal i está dado por:

 Encontrar los c ij’s es relativamente fácil.  Si las variables x 1, x 2, …, x p se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ 1 > λ 2 > …. λ p > 0.  Entonces las constantes c ij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.  La varianza del componente principal i es el “eigenvalue” i, λ i.  La proporción de la variabilidad explicada por el componente principal i está dado por:  Encontrar los c ij’s es relativamente fácil.  Si las variables x 1, x 2, …, x p se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ 1 > λ 2 > …. λ p > 0.  Entonces las constantes c ij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.  La varianza del componente principal i es el “eigenvalue” i, λ i.  La proporción de la variabilidad explicada por el componente principal i está dado por: Intro MVDA - DRGB – Septiembre 2011 [37] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [38] PCAE -PCAPLSE - PLSQ Chart  Los vectores propios (eigenvectors) proveen los coeficientes para los PC’s:  PC 1 = α 11 Z 1 + α 12 Z 2 + … + α 1p Z p  Los valores propios (eigenvalues) corresponden a las varianzas de los PC’s.  λ 1, λ 2, …, λ p  Los vectores propios (eigenvectors) proveen los coeficientes para los PC’s:  PC 1 = α 11 Z 1 + α 12 Z 2 + … + α 1p Z p  Los valores propios (eigenvalues) corresponden a las varianzas de los PC’s.  λ 1, λ 2, …, λ p  La suma de las varianzas de las variables originales es igual a la suma de las varianzas de los PC’s.

Intro MVDA - DRGB – Septiembre 2011 [39] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [40] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [41] PCAE -PCAPLSE - PLSQ Chart ¿Cuantos PC’s?  “Scree Plot” – “estado estable”  Porcentaje de la Varianza  Criterio: Eigenvalues > 1 – Matriz de Correlación ¿Cuantos PC’s?  “Scree Plot” – “estado estable”  Porcentaje de la Varianza  Criterio: Eigenvalues > 1 – Matriz de Correlación

Intro MVDA - DRGB – Septiembre 2011 [42] PCAE -PCAPLSE - PLSQ Chart Figure 7: “Scree Plot” (Matriz de Covarianza)

Intro MVDA - DRGB – Septiembre 2011 [43] PCAE -PCAPLSE - PLSQ Chart ¿Cuantos PC’s?  Porcentaje de la varianza  Puede decidir mantener los PCs que expliquen el 85% de la varianza, por ejemplo. ¿Cuantos PC’s?  Porcentaje de la varianza  Puede decidir mantener los PCs que expliquen el 85% de la varianza, por ejemplo.

Intro MVDA - DRGB – Septiembre 2011 [44] PCAE -PCAPLSE - PLSQ Chart ¿Cuántos PC’s? Criterio Eigenvalue > 1: los eigenvalues son las varianzas de los PCs; por lo tanto, cuando usamos variables estandarizadas (matriz de correlación), se pueden considerar todos los PCs cuyo eigenvalue sea mayor de 1. ¿Cuántos PC’s? Criterio Eigenvalue > 1: los eigenvalues son las varianzas de los PCs; por lo tanto, cuando usamos variables estandarizadas (matriz de correlación), se pueden considerar todos los PCs cuyo eigenvalue sea mayor de 1. Scree Plot (Matriz de Correlacion)

Intro MVDA - DRGB – Septiembre 2011 [45] PCAE -PCAPLSE - PLSQ Chart Tradeoff entre el número de componentes y el “overfitting” R 2 – goodness of fit Q 2 – goodness of prediction R 2 – goodness of fit Q 2 – goodness of prediction

Intro MVDA - DRGB – Septiembre 2011 [46] PCAE -PCAPLSE - PLSQ Chart  Seleccione las variables para el análisis.  Decida si utilizara datos estandarizados, o,  Seleccione la matriz a utilizarse: matriz de covarianza ∑ o matriz de correlación P.  Determine el numero de PCs significativos.  Interprete los PCs (cuando sea posible).  Use los PCs estudios futuros.  Seleccione las variables para el análisis.  Decida si utilizara datos estandarizados, o,  Seleccione la matriz a utilizarse: matriz de covarianza ∑ o matriz de correlación P.  Determine el numero de PCs significativos.  Interprete los PCs (cuando sea posible).  Use los PCs estudios futuros.

Intro MVDA - DRGB – Septiembre 2011 [47] PCAE -PCAPLSE - PLSQ Chart  “Scores plots”:  Muestra las observationes proyectadas en el hiper-plano creado por los PCs.  Muestra un resumen de la relacion entre las observaciones.  “Scores plots”:  Muestra las observationes proyectadas en el hiper-plano creado por los PCs.  Muestra un resumen de la relacion entre las observaciones. Score Plot

Intro MVDA - DRGB – Septiembre 2011 [48] PCAE -PCAPLSE - PLSQ Chart  Loadings plots:  Muestra la relación entre distintas variables.  Los “loadings” son los pesos que combinan las variables originales para obtener los scores.  Geométricamente, representan la dirección de los PCs.  La dirección del plano de proyección provee información sobre la importancia de las variables.  Loadings plots:  Muestra la relación entre distintas variables.  Los “loadings” son los pesos que combinan las variables originales para obtener los scores.  Geométricamente, representan la dirección de los PCs.  La dirección del plano de proyección provee información sobre la importancia de las variables.

Intro MVDA - DRGB – Septiembre 2011 [49] PCAE -PCAPLSE - PLSQ Chart Loading Plot

Intro MVDA - DRGB – Septiembre 2011 [50] PCAE -PCAPLSE - PLSQ Chart Escuela % de RetenciónGPA_ESPGPA-INGGPA-MATT_PromedioProportion A B D E F H A I J K L Escuela % de RetenciónGPA_ESPGPA-INGGPA-MATT_PromedioProportion A B D E F H A I J K L

Intro MVDA - DRGB – Septiembre 2011 [51] PCAE -PCAPLSE - PLSQ Chart Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable PC1 PC2 PC3 PC4 PC5 PC6 % de Retención GPA_ESP GPA-ING GPA-MAT Tiempo_Promedio Proportion Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable PC1 PC2 PC3 PC4 PC5 PC6 % de Retención GPA_ESP GPA-ING GPA-MAT Tiempo_Promedio Proportion

Intro MVDA - DRGB – Septiembre 2011 [52] PCAE -PCAPLSE - PLSQ Chart Ejemplo Escuelas: Model Overview

Intro MVDA - DRGB – Septiembre 2011 [53] PCAE -PCAPLSE - PLSQ Chart Ejemplo Escuelas: Scores Plot

Intro MVDA - DRGB – Septiembre 2011 [54] PCAE -PCAPLSE - PLSQ Chart Ejemplo Escuelas: Loadings Plot

PLS

Intro MVDA - DRGB – Septiembre 2011 [56] PCAE -PCAPLSE - PLSQ Chart  PLS es un método para construir modelos de predicción cuando existen múltiples variables y una alta (relación) entre las mismas.  PLS es una extensión de regresión a PCA, que es utilizado para conectar la información de dos bloques de variables, X e Y.  PLS es un método para construir modelos de predicción cuando existen múltiples variables y una alta (relación) entre las mismas.  PLS es una extensión de regresión a PCA, que es utilizado para conectar la información de dos bloques de variables, X e Y.

Intro MVDA - DRGB – Septiembre 2011 [57] PCAE -PCAPLSE - PLSQ Chart  PLS intenta encontrar unos pocos factores fundamentales o latentes que explican la mayor parte de la variabilidad en las respuestas.  La idea es extraer estos factores latentes mientras se modela adecuadamente las respuestas.  PLS intenta encontrar unos pocos factores fundamentales o latentes que explican la mayor parte de la variabilidad en las respuestas.  La idea es extraer estos factores latentes mientras se modela adecuadamente las respuestas.

Intro MVDA - DRGB – Septiembre 2011 [58] PCAE -PCAPLSE - PLSQ Chart X FACTORES/PREDICTORES K OBSERVACIONES, OBJETOS, MUESTRAS, CASOS, ÍTEMS N RESPUESTAS M OBSERVACIONES, OBJETOS, MUESTRAS, CASOS, ÍTEMS N PLS Y

Intro MVDA - DRGB – Septiembre 2011 [59] PCAE -PCAPLSE - PLSQ Chart K = 3, M = 1, dos nubes de puntos

Intro MVDA - DRGB – Septiembre 2011 [60] PCAE -PCAPLSE - PLSQ Chart K = 3, M = 3, dos nubes de puntos

Intro MVDA - DRGB – Septiembre 2011 [61] PCAE -PCAPLSE - PLSQ Chart Primer Componente, ambos espacios Score Vectors

Intro MVDA - DRGB – Septiembre 2011 [62] PCAE -PCAPLSE - PLSQ Chart Segundo Componente, ambos espacios Línea de segundo componente de X Ortogonal a la primera, esto no es necesariamente cierto para el espacio Y Línea de segundo componente de X Ortogonal a la primera, esto no es necesariamente cierto para el espacio Y

Intro MVDA - DRGB – Septiembre 2011 [63] PCAE -PCAPLSE - PLSQ Chart Score vectors, otros componentes El segundo par de “score vectors” (t2, u2), Correlacionan, pero regularmente menos que el primer componente El segundo par de “score vectors” (t2, u2), Correlacionan, pero regularmente menos que el primer componente

Intro MVDA - DRGB – Septiembre 2011 [64] PCAE -PCAPLSE - PLSQ Chart Modelaje Indirecto Tomado de: An Introduction to Partial Least Squares Regression by Randall D. Tobias

Intro MVDA - DRGB – Septiembre 2011 [65] PCAE -PCAPLSE - PLSQ Chart Ejemplo: el archivo LOWARP, suministrado por Umetrics, es un ejemplo donde tenemos 17 observaciones (mezclas) de una cubierta de plástico para un celular. Cuatro componentes son utilizados en la mezcla. El objetivo del estudio es el de conseguir cubiertas con poca deformación (warpage) y alto esfuerzo (strength). Catorce respuestas relacionadas a las deformaciones y el esfuerzo son medidas en la cubierta.

Intro MVDA - DRGB – Septiembre 2011 [66] PCAE -PCAPLSE - PLSQ Chart Base de Datos – LOWARP Respuestas - Y Factores - X

Intro MVDA - DRGB – Septiembre 2011 [67] PCAE -PCAPLSE - PLSQ Chart LOWARP – Weight Plot

Intro MVDA - DRGB – Septiembre 2011 [68] PCAE -PCAPLSE - PLSQ Chart LOWARP – Observed vs Predicted

Intro MVDA - DRGB – Septiembre 2011 [69] PCAE -PCAPLSE - PLSQ Chart Tres Componentes Dos Componentes

Intro MVDA - DRGB – Septiembre 2011 [70] PCAE -PCAPLSE - PLSQ Chart t1/t2 - Score plot Biplot

Intro MVDA - DRGB – Septiembre 2011 [71] PCAE -PCAPLSE - PLSQ Chart Interpretación de los “weights”

Intro MVDA - DRGB – Septiembre 2011 [72] PCAE -PCAPLSE - PLSQ Chart Coeficientes de variables correlacionadas wrp1 y wrp2

Intro MVDA - DRGB – Septiembre 2011 [73] PCAE -PCAPLSE - PLSQ Chart Coeficientes de variables no correlacionadas wrp4 y st4

Intro MVDA - DRGB – Septiembre 2011 [74] PCAE -PCAPLSE - PLSQ Chart VIP – Variance Influence on projection

Intro MVDA - DRGB – Septiembre 2011 [75] PCAE -PCAPLSE - PLSQ Chart Diagnóstico de observaciones – “outliers” p “non-linearities” Una observación puede ser un outlier en X en Y y/o en la relación entre X e Y. Cuatro score Plots pueden ayudar: t1/u1, t2/u2, t1/t2 y u1/u2 La no-linearidad entre X e Y Puede ser observada en los scores tj/uj La no-linearidad entre X e Y Puede ser observada en los scores tj/uj

Intro MVDA - DRGB – Septiembre 2011 [76] PCAE -PCAPLSE - PLSQ Chart t1/u1 - Score plot Indica una correlación alta entre Los factores y las respuestas; no parecen existir “outliers”. Indica una correlación alta entre Los factores y las respuestas; no parecen existir “outliers”. t2/u2 - Score plot En general se observa una correlación alta entre los factores y las respuestas; puntos 6,11, 12 son como diferentes

Intro MVDA - DRGB – Septiembre 2011 [77] PCAE -PCAPLSE - PLSQ Chart  t/t score útil para encontrar desviaciones en X  u/u plot – útil para encontrar desviaciones en Y  t/u plot – útil para encontrar desviaciones de la correlación existente entre X e Y. Además es útil para desviaciones a la linearidad entre X e Y.  DmodX/DmodY, muestra la distancia de cada observación al modelo en el espacio X/Y y pueden ayudar a detectar “outliers” moderados  t/t score útil para encontrar desviaciones en X  u/u plot – útil para encontrar desviaciones en Y  t/u plot – útil para encontrar desviaciones de la correlación existente entre X e Y. Además es útil para desviaciones a la linearidad entre X e Y.  DmodX/DmodY, muestra la distancia de cada observación al modelo en el espacio X/Y y pueden ayudar a detectar “outliers” moderados

Intro MVDA - DRGB – Septiembre 2011 [78] PCAE -PCAPLSE - PLSQ Chart DMOD- distancia al modelo – detect “outliers”moderados DMODX DMODY

Intro MVDA - DRGB – Septiembre 2011 [79] PCAE -PCAPLSE - PLSQ Chart R2VX- variación explicada de los predictores X Primer Componente DMODY

Hotelling, PCA

Variables Independendientes Variables Dendendientes Intro MVDA - DRGB – Septiembre 2011 [81] PCAE -PCAPLSE - PLSQ Chart

Hotelling T 2 Fase I – uso de los gráficos de control para establecer control (obtener límites adecuados) Fase II – monitoreo de observaciones futuras m = # de muestras, n = tamaño de muestra p = # de variables Fase I – uso de los gráficos de control para establecer control (obtener límites adecuados) Fase II – monitoreo de observaciones futuras m = # de muestras, n = tamaño de muestra p = # de variables Intro MVDA - DRGB – Septiembre 2011 [82] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [83] PCAE -PCAPLSE - PLSQ Chart

Promedios Varianzas Cov / Corr Intro MVDA - DRGB – Septiembre 2011 [84] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [85] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [86] PCAE -PCAPLSE - PLSQ Chart T Square T Square MEAN1MEAN MEAN1MEAN COV COV

Intro MVDA - DRGB – Septiembre 2011 [87] PCAE -PCAPLSE - PLSQ Chart  Uno de los retos en estos gráficos cuando ocurre una señal de fuera de control es distinguir o diagnosticar cual o cuales de las variables son las que han cambiado su comportamiento. Entre los métodos sugeridos para el disgnóstico se encuentran:  Gráficos Univariados usando límites Bonferroni  Usar Componentes Principales  Descomposición de T 2 d i = T 2 – T 2 (i) donde T 2 (i) – la estadística T 2 sin la variable I, valores de d i altos indican variables sospechosas  Otro reto con estas variables es la estinmación de la matriz de covarianza y el vector de promedios

Intro MVDA - DRGB – Septiembre 2011 [88] PCAE -PCAPLSE - PLSQ Chart  Los gráficos de Control Multivariados son efectivos en la medida en que p, el número de variables del proceso a monitorearse no sea muy grande.  A medida que p aumenta el ARL de detectar un cambio particular también aumenta, porque el cambio se “diluye” en el espacio dimesional de las p variables del proceso.  Los gráficos de Control Multivariados son efectivos en la medida en que p, el número de variables del proceso a monitorearse no sea muy grande.  A medida que p aumenta el ARL de detectar un cambio particular también aumenta, porque el cambio se “diluye” en el espacio dimesional de las p variables del proceso.  Métodos para descubrir el subconjunto de variables que operan sobre el proceso se le conocen como “Latent Structure Methods”.  Uno de estos métodos es el de componentes principales PCA – siglas en inglés).  Métodos para descubrir el subconjunto de variables que operan sobre el proceso se le conocen como “Latent Structure Methods”.  Uno de estos métodos es el de componentes principales PCA – siglas en inglés).

Intro MVDA - DRGB – Septiembre 2011 [89] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [90] PCAE -PCAPLSE - PLSQ Chart Correlations: X1, X2, X3, X4 X1 X2 X3 X X X Correlations: X1, X2, X3, X4 X1 X2 X3 X X X Type: PCA-X Observations (N)=20, Variables (K)=4 (X=4, Y=0)

Intro MVDA - DRGB – Septiembre 2011 [91] PCAE -PCAPLSE - PLSQ Chart Principal Component Analysis: X1, X2, X3, X4 Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable PC1 PC2 PC3 PC4 X X X X

Intro MVDA - DRGB – Septiembre 2011 [92] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [93] PCAE -PCAPLSE - PLSQ Chart

Variables OriginalesZ Scores Intro MVDA - DRGB – Septiembre 2011 [94] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [95] PCAE -PCAPLSE - PLSQ Chart

Intro MVDA - DRGB – Septiembre 2011 [96] PCAE -PCAPLSE - PLSQ Chart Hotelling T2 – monitoreo multivariado Pesos señal de fuera de control – obs. 23