Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.

Slides:



Advertisements
Presentaciones similares
¿ Que es una muestra?.
Advertisements

Análisis de Correspondencia
Tema 6: Regresión lineal.
Tema.9.Predicción y estimación. Concepto. Cálculo de la ecuación de regresión lineal. Modelo general lineal. Evaluación del modelo. Diagnóstico del modelo.
U UNIVERSIDAD DE QUINTANA ROO
Cluster.
Master en Recursos Humanos
ANALISIS DE COMPONENTES PRINCIPALES.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
1.2 Variables aleatorias..
Regresión y correlación
ANÁLISIS DISCRIMINANTE
Muestra: Recolección de Datos: Análisis de Datos:
MUESTRA Implica DEFINIR la unidad de análisis (personas, situaciones, individuos, eventos, fenómeno, ensayo)
ESTADISTICA PARA RELACIONES LABORALES
Tema 6: Análisis de la Varianza (1ª parte: ANOVA simple)
Supongamos que nos plantean el siguiente problema:
Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Análisis de correlación.
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
MEDIDAS DE CORRELACIÓN
Facultad: Turismo Y Hotelería
PROBABILIDAD Y ESTADISTICA
Probabilidad condicional
Clases 4 Pruebas de Hipótesis
Estadística aplicada al análisis financiero
Análisis de Conglomerados (Cluster Analysis)
ESTADÍSTICA DESCRIPTIVA
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
Estadística Descriptiva continuación
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
Tema 7: Regresión Simple
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Ejemplo 1: Deseamos estudiar los efectos de ciertas emisiones de gases procedentes de una planta industrial sobre un robledal próximo a la planta. Para.
Introducción a la Inferencia Estadística
Previsión de Ventas. Métodos no paramétricos Previsión de Ventas. Tema 2. 1 Antonio Montañés Bernal Curso
Capacidad de Proceso.
DISEÑOS EPIDEMIOLOGICOS
TABLAS DE FRECUENCIAS Una vez recopilados, tendremos un conjunto de datos que será necesario organizar para extraer información. Lo primero que se hace.
ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro.
Unidad II: Variables Aleatorias Concepto Discreta y Continua Fun. de densidad Fun. de probabilidad F. de distribución Esperanza y Varianza Propiedades.
Método para evaluar valores y cualidades
Variables estadísticas bidimensionales
Tema 5: Contrastes de Hipótesis no-paramétricos
Tema 6: Análisis de la Varianza
ESTADISTICA PROBLEMA 1: Queremos comparar los préstamos de dos bibliotecas situadas en zonas similares. 1.- ¿Es “normal” la variable préstamo en cada una.
Diapositivas de matemáticas
LA ESTADÍSTICA.

MÉTODOS DE ANÁLISIS EN LA TOMA DE DECISIONES EXISTEN PROCEDIMIENTOS DE ORDEN MATEMÁTICO, FINANCIERO, ECONÓMICO, ESTADÍSTICO ENTRE OTROS, PARA LA TOMA DE.
Métodos Cuantitativos
Estimación y contraste de hipótesis
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente.
Distribución de frecuencias y gráficos
Medidas de dispersión IIIº Medio 2015.
Unidad 4 Análisis de los Datos.
Capitulo 1 Análisis descriptivo
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
Estadística descriptiva
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
CONCEPTOS BÁSICOS, TABULACIÓN, GRÁFICOS
Estimación Estadística Tares # 3. Estimación Estadística Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a.
JOANN GÓMEZ MAX SOLANO RAUL RUSTRIAN ECUACIONES DE SEGUNDO GRADO BUENAS SOMOS JOANN, RAUL Y MAX Y LES PRESENTAMOS EL TEMA ECUACIONES DE SEGUNDO GRADO.
Análisis de datos: La ordenación de datos. ● En el análisis de datos se define la información recogida ● Se deben seleccionar las propiedades que se han.
Estadística y probabilidad
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Tema 8: Análisis Multivariante

Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también cualitativas) a la vez. Esencialmente, vamos a ver tres problemas: 1.- Reducir el número de variables (Análisis en componentes principales). 2.- Dada una variable clasificadora (cualitativa), predecir el valor de la variable, para un individuo dado, a partir de un conjunto de variables numéricas (Análisis Discriminante). 3.- Distinguir grupos (clusters) entre los individuos de la población. (Análisis Cluster)

EJEMPLO: Hemos recogido datos entre distintos usuarios de una biblioteca pública, a fin de conocer mejor el público que acude a ella, y especialmente para analizar el funcionamiento de la biblioteca y el grado de satisfacción de sus usuarios.

Aficion_le ctura Num_hi jos Aficion _cine Aficion_ musica renta_m ens Nivel_e studios Aficion _TV Satisfac cion

PREGUNTA1: ¿Se puede “resumir” la información proporcionada por los datos utilizando una cantidad menor de variables? (Análisis en componentes principales) PREGUNTA2: ¿Qué grupos, con “personalidad” propia, podemos distinguir entre los usuarios de la biblioteca? (Análisis cluster) PREGUNTA3: Suponiendo que hemos clasificado a los usuarios en tres grupos (A, B y C), y que se nos presenta un nuevo usua- rio, ¿cómo identificar el grupo al que debe ser asignado el usua- rio? ¿Cuáles son las variables más influyentes a la hora de predecir el valor de la variable cualitativa “grupo de pertenencia”? (Análisis Discriminante)

1.Análisis en Componentes Principales. X 1, X 2, …, X n Y 1, Y 2, …, Y n Variables iniciales (son cuantitativas) Componentes principales 1.- Número elevado de variables. 2.- Existen correlaciones entre ellas (info. redundante) 3.- Tienen significación “clara” 1.- Mismo número de variables, pero ordenadas según % de “información” retenido. 2.- Independientes. 3.- En principio, son artificiales, pero con frecuencia algunas de ellas pueden ser interpretadas a partir de los pesos (EJEMPLO PIZARRA) 4.- La relación entre las Y’s y las X’s es del tipo: Y j =a 1,j X 1 + a 2,j X 2 + … + a n,j X n pesos

-La variabilidad “conjunta” de X 1,…,X n es la suma de las variabilidades de cada X i ; para medirla, sumamos las varianzas V[X i ]. -Análogamente, la variabilidad “conjunta” de Y 1,…,Y n es la suma de V[Y i ]. Esta variabilidad coincide con la de arriba. -Puesto que las Y’s y las X’s están relacionadas según ciertas expre- siones, podemos calcular las varianzas V[Y i ] a partir de las V[X i ]; en consecuencia, podemos presentar las Y’s ordenadas según el % del total de variabilidad inicial que recogen. -En la práctica, uno se queda con el número de componentes principales Y 1,…,Y m necesario para que su variabilidad conjunta sea al menos un 80% de la variabilidad inicial. Se entiende de ese modo que se está perdiendo al menos un 20% de información, pero a cambio de mayor claridad/concisión (menor número de variables). En suma, el proceso permite reducir el número de variables. Statgraphics

2. Análisis Discriminante. X 1, X 2,…,X n, Y Variables cuantitativas Factor de clasificación (var. Cualitativa o cuant. Discreta) (Y puede ser el grado de satisfacción de un usuario de una biblioteca, el hábito de lectura, el tema de un artículo o un libro, el periodo histórico, la gravedad de una enfermedad, etc.) PREGUNTA1: ¿Cuáles son las variables X i que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérvese que si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple).

2. Análisis Discriminante. X 1, X 2,…,X n, Y Variables cuantitativas Factor de clasificación (var. Cualitativa o cuant. Discreta) PREGUNTA1: ¿Cuáles son las variables X i que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérvese que si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple). PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores Para las variables X 1,…,X n, predecir el valor de Y para dicho individuo.

Clave_1Clave_2Clave_3Clave_4Clave_5TEMA FILOSOFIA HISTORIA FILOLOGIA HISTORIA HISTORIA FILOLOGIA FILOSOFIA FILOLOGIA FILOSOFIA FILOSOFIA HISTORIA FILOLOGIA FILOSOFIA HISTORIA HISTORIA FILOLOGIA FILOLOGIA HISTORIA FILOLOGIA FILOSOFIA HISTORIA HISTORIA FILOLOGIA HISTORIA FILOLOGIA FILOSOFIA FILOLOGIA FILOLOGIA EJEMPLO: Hemos seleccionado cinco términos clave que aparecen típicamente, con distintas frecuen- cias, en textos históricos, filosóficos y filológicos. Después, hemos regis- trado la frecuencia de aparición de dichos términos clave en 30 artículos de dichas materias, y hemos anotado el tema (FILOSOFIA, HISTORIA, FILOLOGIA) de cada uno de esos artículos. Nos preguntamos: 1.- ¿Cuáles son los términos clave que permiten clasificar mejor un artículo dentro de cada área (Filosofía, Historia o Filología)? ¿Es realmente efectivo? 2.- ¿Dónde encuadrar (de manera “automática”) un artículo, conocidas las frecuencias de dichos términos “clave” en dicho artículo?

PREGUNTA1: ¿Cuáles son las variables X i que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérvese que si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple). Funciones discriminantes: F 1 =a 1,1 X 1 +…+a 1,n X n F 2 =a 2,1 X 1 +…+a 2,n X n … pesos - Puede haber una o varias funciones discriminantes. - Están ordenadas por su “poder discriminante” (su “efectividad” para clasificar a un individuo en un grupo determinado). - Dentro de una función discriminante, las variables más influyentes son las que tienen mayor peso.

PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores Para las variables X 1,…,X n, predecir el valor de Y para dicho individuo. Funciones de clasificación: Si la variable clasificadora Y tiene j valores distintos (niveles), tendremos j funciones de clasificación: S 1 = c 1,0 + c 1,1 X 1 + … + c 1,n X n.... S j = c j,0 + c j,1 X 1 + … + c j,n X n Dado un nuevo individuo que presenta unos ciertos valores para X 1,…,X n, sustituimos dichos valores en las fórmulas de arriba, y vemos cuál de esas expresiones es la mayor; el nivel de Y al que corresponda dicha expresión, será el valor predicho para Y.

Statgraphics

3. Análisis Cluster. A partir de los valores de X 1,…, X n registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters. Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”). X1X1 X2X2

3. Análisis Cluster. Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”). X1X1 X2X2 A partir de los valores de X 1,…, X n registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters. Si buscamos tres clusters…

3. Análisis Cluster. Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”). X2X2 A partir de los valores de X 1,…, X n registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters. X1X1 Si buscamos cuatro clusters…

El análisis cluster se basa en la detección de “afinidades” entre individuos; para nosotros, cada individuo viene representado por (x 1,…,x n ), y la noción intuitiva de “afinidad” se materializa en el concepto matemático de DISTANCIA. En este sentido, antes de realizar un análisis cluster, debemos fijar (elegir) dos tipos de distancias: 1.- Distancia entre observaciones (individuos) (PIZARRA) Euclídea Euclídea al cuadrado (la más habitual) Distancia de Mahalanobis (ventajosa si hay multicolinealidad o distintos “tamaños” entre las variables) Otras…

El análisis cluster se basa en la detección de “afinidades” entre individuos; para nosotros, cada individuo viene representado por (x 1,…,x n ), y la noción intuitiva de “afinidad” se materializa en el concepto matemático de DISTANCIA. En este sentido, antes de realizar un análisis cluster, debemos fijar (elegir) dos tipos de distancias: 2.- Distancia entre grupos (PIZARRA). Método del centroide Distancia mínima (vecino más próx.): la distancia entre dos grupos es la menor de las distancias entre los miembros de cada grupo Distancia máxima (vecino más lejano): la distancia entre dos grupos es la mayor de las dists. entre los miembros de los grupos. Método de Ward: el grupo más próximo a otro es aquél que minimiza la variabilidad conjunta.

Según el tipo de distancia que fijemos para cada concepto, los resul- tados cambian. También corre de nuestra cuenta fijar el número de clusters. Buscamos los resultados “más significativos” posibles.

¿Cómo se realiza un análisis cluster? a.- Fijamos el número de grupos (clusters). b.- Fijamos una distancia entre observaciones, y una distancia entre grupos. c.- Inicialmente, cada observación forma un grupo distinto. Utilizando la distancia entre observaciones, buscamos las dos observaciones más próximas; en lo sucesivo, ambas forman un único grupo. d.- Utilizando la distancia entre grupos, buscamos los dos grupos más próximos; en adelante, la unión de ambos forma un nuevo grupo. e.- Reiteramos d hasta obtener el número deseado de clusters. EJEMPLO: PIZARRA

Fin del Temario Statgraphics