Reducción de datos Por Elizabeth León.

Slides:



Advertisements
Presentaciones similares
Solución de Problemas en AI
Advertisements

DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Apuntes 2º Bachillerato C.T.
UNIVERSIDAD NACIONAL DE INGENIERÍA
Cluster.
Ejemplo A continuación aparecen las tasas de retorno de dos fondos de inversión durante los últimos 10 años. 1. ¿Cuál es más riesgoso? 2. ¿En cuál invertiría.
Capítulo 3 Descripción de datos, medidas de tendencia central
COMPENSACIÓN DE MOVIMIENTO
TEMA 7 CINEMÁTICA Primera Parte.
Investigación de Operaciones II
PROYECTO DE GRADO CARLOS STALIN ALVARADO SANCHEZ
“Construcción de Software para Regresión: El Caso de Selección de Modelos y Pruebas de Homocedasticidad” Previa a la obtención del Título de: INGENIERO.
Unidad académica: Ingenierías
KRIGING.
Modelado y simulación en Ingeniería Química. Manuel Rodríguez
Clase # 8: Análisis Conformacional (II)
MODELO DE REGRESIÓN MÚLTIPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
Tema 6: Compresión de imagen
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Investigación Operativa
RECONOCIMIENTO DE OBJETOS
Capitulo 10: La metodología Box-Jenkins
Regresión y correlación
ACOTACIÓN EN DIBUJO TÉCNICO
La derivada Conforme transcurre el tiempo, vivimos inmersos en un constante cambio. A la par que cambia nuestra edad, cambia nuestro aspecto, nuestras.
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Bioestadística III. Escala cuantitativa. n Cuando la escala de medición es cuantitativa, y el análisis requiere un solo valor numérico que resuma alguna.
ANOVA Modelo I: Comparación entre medias
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
FUNCIONES DE DENSIDAD DE PROBABILIDAD
ANALISIS DE DATOS CON EXCEL
Distribución Normal.
Ejemplo de aplicación de las ANN
1 Asignatura: Autor: Análisis Numérico César Menéndez Titulación: Planificación: Materiales: Conocimientos previos: Aproximación Ingeniero Técnico Informático.
Curso de Bioestadística. ANOVA
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Sesión 6: Campos de Markov
Reconocimiento de Patrones
MÉTODO DE PIXELES DE BORDE
ESTADISTICA TEMA y 223.
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Datos: Estadística.
Ordenación Polar (Bray Curtis)
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
Métodos de calibración: regresión y correlación
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
3. Análisis de Correspondencias Simples
REGRESION LINEAL MULTIPLE: Introducción
A NALISIS F ACTORIAL Capitulo 15 spss para windows.
La División Sintética Menú: Definición.
Redes Neuronales Artificiales
Alineamiento.
ESTADÍSTICA DESCRIPTIVA
Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002.
¿Cómo calcular la media? ¿Cuál es la media de estos números?
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
ANÁLISIS MULTIVARIANTE
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
Métodos Cuantitativos
Maracaibo, 26 de Mayo de 2006 Universidad del Zulia Facultad de Ingeniería División de Postgrado Maestría en Computación Aplicada Universidad del Zulia.
Escalamiento Multidimensional No-Métrico. Rasgos generales Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más.
Análisis de los Datos Cuantitativos
Método de mínimos cuadrados
Estadística Reporte Ejecutivo
MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)
Escuela de Ciencias Básicas Tecnología e Ingeniería UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA ESCUELA DE CIENCIAS BASICAS, TECNOLOGIA E INGENIERIA SEPTIEMBRE.
Transcripción de la presentación:

Reducción de datos Por Elizabeth León

Entropía Para enumerar dimensiones (ranking) Basado en la medida de similaridad (inversa a la distancia) Hamming similarity (variables nominales) F1 F2 F3 R1 A X 1 R2 B Y 2 R3 C R4 R5 Z 3 R1 R2 R3 R4 R5 0/3 2/3 1/3 similaridades

Entropía Distribución de las similaridades es una característica de la organización y orden de los datos en el espacio de n-dimensiones Criterio para excluir dimensiones: cambios en el nivel del orden en los datos Cambios medidos con entropía Entropía es una medida global que es menor para configuraciones ordenadas y grande para configuraciones desordenadas

Entropía Compara la entropía antes y después de remover una dimensión Si las medidas son cercanas, el conjunto de datos reducido aproxima el original conjunto de datos Entropía: Similaridad entre xi y xj

Entropía El algoritmo esta basado en “sequential backward ranking” La entropia es calculada en cada iteracion para decidir el “ranking” de las dimensiones. Las dimensiones son gradualmente removidas

Entropía (Algoritmo) Comienza con todo el conjunto de datos F EF = entropia de F Por cada dimensión f Є F, Remover una dimensión f de F y obtener el subconjunto Ff EFf = entropia de Ff Si (EF - EFf ) es mínima Actualizar el conjunto de datos F = F – f f es colocada en la lista “rankeada” Repetir 2-3 hasta que solo haya una dimensión en F

Entropía (Algoritmo) El proceso puede ser parado en cualquier iteración y las dimensiones son seleccionadas de la lista. Desventaja: complejidad Implementación paralela

Principal Component Analysis PCA Principal Component Analysis

Eigenvectors Eigenvectors son casos especiales de multiplicación de matrices: No es múltiplo del vector original Cuatro veces el vector original Matriz de transformación Vector transformado en su posición original de transformación Eigenvector

Propiedades de eigenvectors Se encuentran para matrices cuadradas No todas las matrices cuadradas tienen eigenvectors Si una matriz nXn tiene eigenvectors, entonces tiene n eigenvectors Los eigenvectors son perpendiculares (ortogonales)

Propiedades de eigenvectors Ecalar el eigenvector a longitud 1 (estándar)

Eigenvalues Eigenvalue asociado con el eigenvector

Ejercicio Cual de los siguientes vectores son eigenvectors de la matriz? Cual es su correspondiente eigenvalue?

Principal Component Analysis Identificar patrones en datos, y expresar los datos para realzar similaridades y diferencias Reduce el número de dimensiones (compresión) sin mucha perdida de información

Método (Ejemplo)

Método (Ejemplo) Restar la media

Método (Ejemplo) Calcular la matriz de covarianzas

Método (Ejemplo) Calcular eigenvectors y eigenvalues de la matriz de covarianzas. Método para calcular eigenvectors= Jacobi (Investigar)

Método (Ejemplo) Menos importante Eigenvectors (perpendicular) Entre los puntos. Los puntos están relacionados con esta línea

Método (Ejemplo) Escoger componentes y formar vector (feature vector) Ordenar de eigenvalues de mayor a menor (orden de significancia) Valores pequeños de eigenvalues indican que el eigenvector es menos importante. Componente Principal (mayor eigenvalue)

Método (Ejemplo) Cuantos componentes principales son necesarios para tener una buena representación de los datos? Analizar la proporción de la varianza (eigenvalues). Dividiendo la suma de los primeros m eigenvalues por la suma de todos los eigenvalues 90% es considerado bueno

Método (Ejemplo) Derivar nuevo conjunto de datos Datos ajustados usando la media X Matriz de eigenvectors

Método (Ejemplo) Nuevo conjunto usando los dos eigenvectors

Obtener el original conjunto de datos Nuevo conjunto X (eigenvector matrix)-1 Nuevo conjunto X (eigenvector matrix)T

Obtener el original conjunto de datos

Técnicas para discretizar dimensiones Reducción de Valores Técnicas para discretizar dimensiones

Técnicas para discretizar dimensiones Discretizar valores de dimensiones continuas en pequeños intervalos. Cada intervalo corresponde con un valor discreto. Beneficios: Simplificar la descripción de los datos, mejor entendimiento de los datos Ejemplo: edad (0-150) puede ser categorizada en: bebe, niño, adolescente, adulto, anciano (los puntos de corte son definidos subjetivamente)

BIN Valores numéricos que pueden ser ordenados de menor a mayor Particionar en grupos con valores cercanos Cada grupo es representado por un simple valor (media, la mediana o la moda) Cuando el numero de bins es pequeño, el limite mas cercano puede ser usado para representar el bin

BIN Ejemplo: f = {3, 2, 1, 5, 4, 3, 1, 7, 5, 3} ordenado f= {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} particionando en 3 BINs: {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} representacion usando la moda: {1, 1, 1, 3, 3, 3, 5, 5, 5, 5}

BIN usando media: {1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25} Remplazando por el limite mas cercano: {1, 1, 2, 3, 3, 3, 4, 4, 4, 7} Problema de optimización en la selección de k bins, dado el numero de bins k: distribuir los valores en los bins para minimizar la distancia promedio entre un valor y la media o mediana del bin.

BIN Algorithm Ordenar valores Asignar aproximadamente igual numero de valores (vi) a cada bin (el numero de bins es parámetro) Mover al borde el elemento vi de un bin al siguiente (o previo) si la distancia de error (ER) es reducida. (ER es la suma de todas las distancias de cada vi a la media o moda asignada al bin)

BIN Ejemplo: f = {5, 1, 8, 2, 2, 9, 2, 1, 8, 6} Particionar en 3 bins. Los bins deben ser representados por sus modas. f ordenado ={1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Bins iniciales = {1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Modas = {1, 2, 8} Total ER = 0+0+1+0+0+3+2+0+0+1 = 7

BIN Después de mover dos elementos del bin2 al bin1, y un elemento del bin3 al bin2: f ={1, 1, 2, 2, 2 5, 6, 8, 8, 9} Modas = {2, 5, 8} ER = 4 Cualquier movimiento de elementos incrementara ER