Ángel M. Ramos Domínguez Curso de Doctorado Análisis Conjunto

Slides:



Advertisements
Presentaciones similares
ANÁLISIS DE CONGLOMERADOS
Advertisements

Mr. Redaelli OnlineTaco.com. To Have - Tener Yo tengo – I have Tú tienes – You have (Informal) Usted tiene – You have (Formal) El tiene – He has Ella.
U UNIVERSIDAD DE QUINTANA ROO
Cluster.
Master en Recursos Humanos
Introducción a los Algoritmos
Dra. Rocío C. Romero Zaliz
Análisis Estadístico de Datos Climáticos
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
ANALISIS DE CONGLOMERADOS
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
English Version El objetivo de esta guía es orientar al proveedor acerca de la realización de consultas de los pagos. Por favor haga uso de las flechas.
Clustering (Agrupamiento)
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
Introducción al Análisis Cluster
Búsqueda de Aproximaciones: Algoritmos
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
TÉCNICA MULTIVARIABLE / DEPENDENCIA
English Lesson 5.
Aprendizaje Automático en Bioinformática
Estadística aplicada al análisis financiero
Especificación de Consultas M
ANÁLISIS DE CONGLOMERADOS
Análisis de Algoritmos
UNITA - IBARRA TRIGGERS
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
John Freddy Duitama M.U.de.A. Facultad de Ingeniería. Creación del esquema de Una Base de Datos. John Freddy Duitama Muñoz. Facultad de Ingeniería. U.de.A.
ANÁLISIS DE CONGLOMERADOS
Análisis de Conglomerados (Cluster Analysis)
Adjective Agreement Well, the same is true of adjectives. You can’t use the exact same word to describe “mujer” that you use to describe “hombre.” Remember.
Trabajando con puertas y ventanas Como clasificar puertas y ventanas
4.1 Continuidad en un punto 4.2 Tipos de discontinuidades 4.3 Continuidad en intervalos.
POWERPOINT DEL VOCABULARIO: EJEMPLO. MAKE SURE EACH SLIDE INCLUDES AN IMAGE OR IMAGES THAT APPROPRIATELY AND EFFECTIVELY REPRESENT THE VOCABULARY WORD.
Accuracy & Precision. Fundamental principle of measuring: No measurement is exact and the true value is never known Accuracy & Precision.
The Normal Distribution To calculate the probability of a Normal distribution between a and b:
Redes Competitivas.
Conditional Mood of Regular Verbs. The conditional mood of regular verbs is very easy because it is the same set of endings as the imperfect or –er and.
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
IRREGULAR VERBS. Remember how regular verbs are formed? You drop the –ar, -er, or –ir and add the appropriate ending.
Formal Commands of Regular Verbs
Write three things that you plan on doing this weekend (in English).
Stem-Changing verbs.
Artificial Intelligence Machine learning Fall 2008 professor: Luigi Ceccaroni.
ALC #7 Do the math problems and write the answer in Spanish.
First Grade – High Frequency Word Reading Competition Classroom Competition Created by: Malene Golding School Improvement Officer: Kimberly Fonteno.
Calentamiento Write the answers to each question.
Definition
University of Delaware Introduction to Writing PBL Problems Introducción a la elaboración de problemas. Institute for Transforming Undergraduate Education.
Influence of OB LEDs on transmission length measurements (EXTENDED) HAROLD YEPES-RAMIREZ IFIC, October 26 nt
Notebook Organization (Todo el trabajo de esta clase se hace en el cuaderno)
Objetivo: to identify phrases that express someone must do something. Ahora: List 3 adverbs and where are they placed in a sentence.
Associative, Commutative, and Distributive Properties of Addition and Multiplication August 18th Students only need to copy the writing in purple. Students.
LECCIÓN 2: SEGUNDA PARTE Today you will learn: To discusses subjects and classes at school Today you will review: How to tell time in Spanish.
Vámonos (cinco minutos)  Write and solve three math problems of your own in Spanish- remember that you don’t know any numbers higher than 99 or lower.
ECOM-6030 PASOS PARA LA INSTALACIÓN DE EASYPHP Prof. Nelliud D. Torres © - Derechos Reservados.
What is a reflexive verb? A reflexive verb indicates that the subject of the sentence has performed an action on himself/herself/itself. In other words,
Un juego de adivinanzas: ¿Dónde está el tesoro? A1B1C1D1E1F1 A4B4C4D4E4F4 A2B2C2D2E2F2 A5B5C5D5E5F5 A3B3C3D3E3F3 A6B6C6D6E6F6 Inténtalo de nuevo Inténtalo.
INTRO. TO LAW – MR. STILLMAN 12/2/15 AIM: How do we construct a brilliant BILL OF RIGHTS PROJECT? DO NOW: Which Amendment will you choose for your project?
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Introduction First… Check with conference organizers for their specifications of size and orientation before you start your poster, for example maximum.
Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.
¡BIENVENIDOS! ALPHABET, COGNATES.. DO NOW Take five minutes to Silently and Independently fill out the calendar on your desk. Every Calendar should have:
Chapter 4 grammar Indefinite articles Cuánto, mucho And poco 1.
Escribir *You can get creative. You can write in the first person which means you are the character, you can use the third person which means you are talking.
Yo soy, tú eres, él es…Viajes Week 3. Para Empezar.
GREETINGS AND FAREWELLS
GRAPHIC MATERIALS 1. GRAPHIC MATERIALS. GRAPHIC MATERIALS 1. GRAPHIC MATERIALS.
Bienvenidos a la clase de Español 3 para hispanohablantes
Welcome to PowerPoint gdskcgdskfcbskjc. Designer helps you get your point across PowerPoint Designer suggests professional designs for your presentation,
3D Man Arranging Colorful Toy Blocks Your Logo. 3D Man Arranging Colorful Toy Blocks.
Transcripción de la presentación:

Ángel M. Ramos Domínguez Curso de Doctorado Análisis Conjunto SPSS Tutorial Ángel M. Ramos Domínguez Curso de Doctorado Análisis Conjunto

Análisis Cluster Guía Análisis Cluster Ejemplo de análisis cluster Trabajo sobre asignación

Análisis Cluster Es una clase de técnicas utilizadas para clasificar casos en grupos que son relativamente homogéneos dentro de si mismos y heterogéneos entre ellos, sobre la base de un conjunto definido de variables. Estos grupos se llaman Clusters o Conglomerados.

Análisis Cluster e Investigación de mercados Segmentación de Mercados. Agrupamiento de consumidores de acuerdo a sus preferencias de atributos Comprender el comportamiento de los compradores. Los consumidores con similares comportamientos/características son agrupados juntos. Identificar oportunidades de nuevos productos. Los clusters de similares marcas/productos pueden ayudar a identificar competidores/oportunidades de mercado Reducción de los datos. En mapas de preferencias

Etapas de un Análisis cluster Seleccionar una medida de distancia Seleccionar un algoritmo de agrupamiento Determinar el número de clusters Validar el análisis

Definición de la distancia: La distancia Euclídea Dij distancia entre los casos i y j xki valor de la variable Xk para el caso j Problemas: Diferentes medidas = diferentes ponderaciones Correlación entre variables (redundancia) Solución: Análisis de componentes principales

Procedimientos de Clustering Procedimientos jerarquicos Aglomerativo (comienza desde n clusters, hasta llegar a obtener 1 cluster) Divisivo (comienza desde 1 cluster, hasta obtener n cluster) Procedimientos no jerarquicos Cluster de K-medias

Agrupamiento aglomerativo

Agrupamiento aglomerativo Métodos de enlace Enlace simple (distancia mínima) Enlace Completo (distancia máxima) Enlace promedio Método de Ward Calcular la suma de las distancias al cuadrado dentro de los clusters Agregar clusters con incremento mínimo en la suma de cuadrados total Método del centroide La distancia entre dos clusters se define como la distancia entre los centroides (medias de los cluster)

Cluster de K-medias El número k de clusters es fijo Se proporciona un conjunto inicial de k “semillas” (centros de agregación) K primeros elementos Otras semillas Dado un cierto umbral, todas unidades son asignadas a la más cercana semilla del grupo Se calculan nuevas semillas Volver a la etapa 3 hasta que no sea necesaria una reclasificación Las unidades pueden ser reasingnadas en etapas sucesivas (partición óptima)

Métodos jerarquicos vs no jerarquicos Agrupamiento jerarquico No hay decisión acerca del número de clusters Existen problemas cuando los datos contienen un alto nivel de error Puede ser muy lento La decisión inicial influye mucho (una etapa única) Agrupamiento no jerarquico Más rápido, más fíable Es necesario especificar el número de clusters (arbitrario) Es necesario establecer la semilla inicial (arbitrario)

Método sugerido Primero ejecutar un método jerárquico para definir el número de clusters Luego utilizar el procedimiento k-medias para formar los clusters

Definición del número de clusters: regla del codazo (1)

Regla del codazo (2): El diagram scree

Validación del análisis Impacto de las semillas iniciales / orden de los casos Impacto del método seleccionado Considerar la relevancia del conjunto de variables elegido

SPSS Example

Number of clusters: 10 – 6 = 4

Open the dataset supermarkets.sav From your N: directory (if you saved it there last time Or download it from: http://www.rdg.ac.uk/~aes02mm/supermarket.sav http://www.rdg.ac.uk/~aes02mm/supermarket.sav Open it in SPSS

The supermarkets.sav dataset

Run Principal Components Analysis and save scores Select the variables to perform the analysis Set the rule to extract principal components Give instruction to save the principal components as new variables

Cluster analysis: basic steps Apply Ward’s methods on the principal components score Check the agglomeration schedule Decide the number of clusters Apply the k-means method

Analyse / Classify

Select the component scores Untick this Select from here

Select Ward’s algorithm Select method here Click here first

Output: Agglomeration schedule

Number of clusters Identify the step where the “distance coefficients” makes a bigger jump

The scree diagram (Excel needed)

Number of clusters Number of cases 150 Step of ‘elbow’ 144 __________________________________ Number of clusters 6

Now repeat the analysis Choose the k-means technique Set 6 as the number of clusters Save cluster number for each case Run the analysis

K-means

Specify number of clusters K-means dialog box Specify number of clusters

Save cluster membership Click here first Thick here

Final output

Cluster membership

Component meaning (tutorial week 5) 4. Organic radio listener 1. “Old Rich Big Spender” 3. Vegetarian TV lover 2. Family shopper 5. Vegetarian TV and web hater

Cluster interpretation through mean component values Cluster 1 is very far from profile 1 (-1.34) and more similar to profile 2 (0.38) Cluster 2 is very far from profile 5 (-0.93) and not particularly similar to any profile Cluster 3 is extremely similar to profiles 3 and 5 and very far from profile 2 Cluster 4 is similar to profiles 2 and 4 Cluster 5 is very similar to profile 3 and very far from profile 4 Cluster 6 is very similar to profile 5 and very far from profile 3

Which cluster to target? Objective: target the organic consumer Which is the cluster that looks more “organic”? Compute the descriptive statistics on the original variables for that cluster

Representation of factors 1 and 4 (and cluster membership)