Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002.

Slides:



Advertisements
Presentaciones similares
ANÁLISIS DE CONGLOMERADOS
Advertisements

Inteligencia Artificial
Cluster.
Bivariadas y Multivariadas
La regla de la esquina noroeste
Funcionamiento de MARXAN y el templado simulado
KRIGING.
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
Prof. Ramón Garduño Juárez Modelado Molecular Diseño de Fármacos
Clase # 8: Análisis Conformacional (II)
MODELO DE REGRESIÓN MÚLTIPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
Reducción de datos Por Elizabeth León.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Investigación Operativa
Taller 2. Medición de distancia entre variables y sujetos
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
ANÁLISIS DISCRIMINANTE
Aplicaciones de la derivada Resuelve problemas de optimización aplicando las ideas básicas relacionadas con extremos de funciones de una variable Bloque.
Unidad 4. Muestreo de Aceptación
PROCESAMIENTO DE DATOS DE VIENTO 1º Parte.
Optimización matemática Algoritmos Genéticos – Parte 2 Por: Antonio H
2- SIMPLEX.
Búsqueda de Aproximaciones: Algoritmos
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Análisis de componentes principales. Algunas técnicas estadísticas.
Tema 2: Métodos de ajuste
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
FUNCIONES DE DENSIDAD DE PROBABILIDAD
Algoritmo Simplex Dual Como sabemos, el método simplex es un algoritmo iterativo que iniciando en una solución básica factible pero no óptima, genera soluciones.
Departamento de Informática Universidad Técnica Federico Santa María Capítulo 2 “Subprogramas/Funciones - Arreglos” Arreglos-Arrays.
Optimización Combinatoria usando Algoritmos Evolucionistas Problemas de Optimización. Idea: Encontrar una solución "factible" y "óptima" de acuerdo a algún.
Capítulo 4 BUSQUEDA INFORMADA.
Programación Lineal Unidad 1 Parte 3.
ANÁLISIS DE CONGLOMERADOS
Ajustes de datos: transformación de datos.
Solución de problemas por Búsqueda
Programación Lineal Entera Antonio H. Escobar Z Universidad Tecnológica de Pereira – Colombia Posgrado en Ingeniería – Maestría/Doctorado.
3. Funciones discriminantes para la f.d.p normal.
Sesión 6: Campos de Markov
Reconocimiento de Patrones
Descripción de Contenidos con Wavelets Jaime Gaviria.
Análisis de Conglomerados (Cluster Analysis)
Muestreo de comunidades
MÉTODO DE PIXELES DE BORDE
Distribución Normal Distribución Normal
UNIVERSIDAD POPULAR DEL CESAR
Ordenación Polar (Bray Curtis)
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
3. Análisis de Correspondencias Simples
A NALISIS F ACTORIAL Capitulo 15 spss para windows.
Titular: Agustín Salvia
Análisis y diseño de experimentos
Método para evaluar valores y cualidades
Análisis de correspondencia canónica (CCA)
Análisis de especies indicadoras Capítulo 25 de McCune y Grace 2002.
Inferencia Multivariante Cap 10 y 11
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
MAXIMOS Y MINIMOS Cálculo Diferencial Fuan Evangelista Tutor
Medidas de similaridad y distancia Capítulo 6 de McCune y Grace 2002, y páginas de Ruokolainen et al
Escalamiento Multidimensional No-Métrico. Rasgos generales Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más.
Reducción de dimensionalidad por ordenación Capítulo 13 de McCune y Grace 2002.
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
CISO 3155: Capítulo 91 Evaluando los promedios de dos grupos distintos Capítulo 9.
Distribuciones de Probabilidad
Regresión lineal simple Nazira Calleja
Medidas de similaridad y distancia
Anuncio Entregar propuesta en o antes de viernes 30 de marzo.
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Teoría de la Generalizabilidad
Transcripción de la presentación:

Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002

Rasgos generales Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más a las posiciones de los objetos según sus distancias originales. Es iterativo No supone que existan relaciones lineales entre variables Utiliza el orden de distancias (“ranked distances”) como criterio principal.

Rasgos generales (continuación) Permite utilizar cualquier medida de distancia o relativizacion. Cada corrida puede resultar en ordenaciones diferentes Requiere muchos recursos de computación, particularmente con muchos datos Es posible que encuentre una solución subóptima

Procesamiento Calcular matriz de distancias ecológicas Δ entre muestras (disimilaridades)matriz de distancias ecológicas Δ Asignar muestras en una configuración inicial de k dimensionesconfiguración inicial de k dimensiones Calcular la matriz D de distancias Euclidianas en el espacio de k dimensionesmatriz D de distancias Euclidianas Ordenar los elementos de Δ en orden ascendenteelementos de Δ en orden ascendente

Procesamiento (continuación) Ordenar los elementos de D en el mismo orden de Δelementos de D en el mismo orden de Δ Calcular Ď (matriz en la que se sustituyen las distancias no-monotónicas d con distancias monotónicas d’)distancias no-monotónicas d con distancias monotónicas d’ Calcular la tensión S (“stress”) del arreglo inicial a base de la suma de las diferencias (d-d’) 2.tensión S (“stress”)

Procesamiento (continuación) Minimizar la tensión S mediante la modificación del arreglo de muestras en el espacio de k dimensiones. El parámetro α (“initial step length”) indica la velocidad inicial de modificación de tensión. Iterar (regresar al paso 3) hasta que: –Se completen un número máximo de iteraciones –O se obtenga un nivel de estabilidad

Analogía Paisaje con varias lomas y valles de distintas profundidades NMS intenta encontrar el valle más profundo (mínimo global) En ocasiones encuentra un valle menos profundo (mínimo local) Los mínimos locales pueden evitarse: –Haciendo varias corridas con arreglos iniciales al azar –Corriendo NMS con arreglo inicial producido por otro método de ordenación

La mejor solución Seleccionar un número de dimensiones k apropiado Buscar tensión S baja Utilizar una prueba de Monte Carlo Evitar soluciones inestables

Número de dimensiones Graficar tensión final vs k –Gráfica “scree”Gráfica “scree Seleccionar numero de ejes mas alla de los cuales hay poca reduccion en tension

Buscar tensión baja Regla general:

Prueba de Monte Carlo Prueba de significacia de un arreglo de muestras en espacio de ordenacion Se rearreglan las especies de la matriz de datos un numero x de veces al azar Precaución con: –Rezagados muy influyentes –Especies super abundantes –Con pocas muestras la prueba puede ser conservadora –Si la data tiene muchos ceros puede haber problema con ciertas medidas de distancia

Evitar soluciones inestables Graficar tension vs iteraciones

¿Qué informar? Medida de distancia Algoritmo utilizado Arreglo inicial # de corridas con datos reales Cómo mide dimensionalidad Cuántas dimensiones en la solución final Tensión de la solución final

¿Qué informar? # de corridas con datos aleatorios Resultados de Monte Carlo Cuantas iteraciones para la solucion final Como evaluó la estabilidad Proporción de varianza representada por cada eje Ayudas para interpretación

s1s2s3s4 s s s s Matriz de distancias originales Δ

Matriz D s1s2s3s4 s23.6 s343.6 s s

Elementos de matriz Δ Elementos de matriz Δ ordenados