Selección de atributos

Slides:



Advertisements
Presentaciones similares
METABOLOMICS PCA – Principal Component Analysis. Modelos y Datos  Todos los estudios arrojan datos  En cada estudio se miden variables.
Advertisements

ANALISIS DE DATOS CON EXCEL
Análisis Factorial de Datos Categóricos
The Normal Distribution To calculate the probability of a Normal distribution between a and b:
Allan Deviation J. Mauricio López R. Time and Frequency Division Centro Nacional de Metrología, CENAM
CO-2124 Análisis de Varianza con Un Criterio de Clasificación En clases anteriores se deseaba determinar si existían diferencias entre las medias de dos.
Input Devices. An input device is a piece of equipment used for entering data or controlling a computer, for example, a mouse, a keyboard, a scanner,
PRUEBA CHI-CUADRADO UNIDAD 2: ESTADÍSTICA.
TEMA 3: ESTADÍSTICA BIDIMENSIONAL. ÍNDICE: 1.- Relación estadística: correlación. 2.- Diagramas de dispersión o nube de puntos. 3.- Tablas de frecuencia.
1 Applied biostatistics Francisco Javier Barón López Dpto. Medicina Preventiva Universidad de Málaga, España
El estadístico Chi- cuadrado ING. RAÚL ALVAREZ GUALE, MPC.
Ejemplos de  2 y prueba de contingencia Queremos saber: 1.- Si la diferencia entre los parentales en cuanto al color de la flor se debe a un solo gen.
Introducción a las No-Paramétricas Chi-Cuadrada χ 2 Maestría de Salud Pública Universidad de Xochicalco 2º Semestre 5 de Junio del 2009 Dr Burgos Dra.
Tema: Estadísticos no paramétricos CHI-Cuadrada Curso: Seminario de Estadística ESCUELA SUPERIOR POLITECNICA DE CHIMBORAZO FACULTAD DE INFORMATICA Y ELECTRONICA.
MEP- II.
Scientific Method- Steps followed by scientists to find the answer to a scientific problem. Método Científico- pasos seguidos por los científicos para.
DISEÑO EN CUADRADO LATINO Y GRECOLATINO
EQUILIBRIUM OF A PARTICLE IN 2-D Today’s Objectives: Students will be able to : a) Draw a free body diagram (FBD), and, b) Apply equations of equilibrium.
Tema 3. El estadístico Chi-cuadrado y contrastes asociados RONALD AYLMER FISHER.
UNIVERSIDAD NACIONAL DE SAN AGUSTIN
Procedimiento completo de regresión múltiple
Gráficos ¿Cómo aplicamos los gráficos?.
Statistic Package for Social Sciencies
Estadística II Prueba de hipótesis considerando
BI – Business Intelligence
Graficos ¿Còmo aplicamos los gràficos?.
CHI CUADRADO  2 OBJETIVOS –Describir situaciones donde es adecuado la utilización de la prueba de Chi Cuadrado (  2 ) –Formular Hipótesis para diferentes.
Anova de una via Diseños completamente aleatorios
POSSESSIVE ADJECTIVES
Base de Datos II Almacenamiento.
Comparación de medias-no paramétrico
Pruebas de normalidad y asunciones de los modelos lineares
Math Vocabulary Week 11 1.  Addition Method (Elimination Method)  –  process of eliminating one of the variables in a system of equations using addition.
Neutron Radiography. Outline Introduction Radiography principle Instrumentation Conclusions.
Anova de una via Diseños completamente aleatorios
CIEMAT Spanish WA105 meeting
BI – Business Intelligence
Diseño experimental 2137 Juan C. Benavides
Graficos ¿Còmo aplicamos los gràficos?.
—Estoy enamorado de usted. —No, no puede ser.
GRAPHIC MATERIALS 1. GRAPHIC MATERIALS. GRAPHIC MATERIALS 1. GRAPHIC MATERIALS.
Los pronombres relativos que y quien
Youden Analysis. Introduction to W. J. Youden Components of the Youden Graph Calculations Getting the “Circle” What to do with the results.
Facultad de Ciencias Pecuarias INGENIERÍA EN ALIMENTOS THEME: Does safety information influence consumers’ preferences for controversial food products?
Anova de una via Diseños completamente aleatorios
REPASO BIOESTADÍSTICA I Dra. Margot Vidal Anzardo Unidad de Epidemiología Clínica Universidad Peruana Cayetano Heredia.
ANALISIS DE VARIANZA
Regresión Lineal Simple Capitulo 17. Los temas Regresión Lineal Comparando ecuaciones lineales Bondad de ajuste (Chi square) Tabla de contingencia The.
—Sí, me quiere, de eso estoy seguro.
Los pronombres relativos que y quien
Análisis de datos categóricos Cs. Veterinarias 2015
INTRODUCCION En esta base de datos, la variable “estrés ” es categórica (tiene estrés / no tiene estrés ) y querríamos saber si está relacionada.
“To Be” or not “To Be” Ser vs. Estar.
Hace = For/Since.
Sumas de cuadrados en Anova
UNIVERSIDAD DE LOS ANDES CENTRO DE INVESTIGACIONES PSICOLÓGICAS
Regresión Lineal Simple
Diseño en bloques y medidas repetidas
Kindergarten Spanish High Frequency Words
Diseño en bloques aleatorios (completos)
Fabian López, Jordi Martí, Galdric Ruiz
"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample.
—Sí, me quiere, de eso estoy seguro.
—Estoy enamorado de usted. —No, no puede ser.
Los Pronombres.
UNIVERSIDAD NACIONAL DE CAJAMARCA HISTORIA DE LA INVESTIGACION DE OPERACIONES INTRODUCCION Ing. MANUEL ROBERTO AZAHUANCHE OLIVA.
Demonstrative adjectives; adverbs of place
How to write my report. Checklist – what I need to include Cover page Contents page – with sections Introduction - aims of project - background information.
Transcripción de la presentación:

Selección de atributos

Contenido Selección de atributos: Extracción de atributos: Test Chi cuadrado Test KS (Kolmogoroff-Smirnoff) Extracción de atributos: Análisis de componentes principales (PCA) Análisis de componentes independientes (ICA)

Clasificación de técnicas para la selección de atributos Filter Wrapper Embedded methods

Filter Correlación entre atributos y variable dependiente Relación entre atributo y variable dependiente Test chi-cuadrado para atributos categóricos ANOVA (Analysis of Variance) o test KS (Kolmogorov-Smirnov) para atributos numéricos

Test Chi-cuadrado Goodness of Fit Independence of two variables Hypotheses concerning proportions

Test Chi-cuadrado: Independencia de dos variables Tenemos 2 variables categóricas Hipótesis: estas variables son independiente Independencia significa: Conocimiento de una de las dos variables no afecta la probabilidad de tomar ciertos valores de la otra variable

Test Chi-cuadrado: Tabla de contingencia Tabla de contingencia: matriz con r filas y k columnas, donde r=número de valores de variable 1 k=número de valores de variable 2

Test Chi-cuadrado: Tabla de contingencia Ejemplo: Variable 1=Edad, variable 2=sexo Grado de libertad (degree of freedom): df=(r-1)(k-1) Idea: Comparar frecuencia esperada con frecuencia observada Hipótesis nula: variables son independientes   Sexo Edad masculino femenino Total < 30 60 50 110 >= 30 80 10 90 140 200 r=2 k=2

Test Chi-cuadrado: Test Frecuencia esperada de una celda fe: fe = (fr*fk)/n con: fr = frecuencia total en fila r fk = frecuencia total en columna k Ejemplo: r=k=1; fr=110; fk=140; n=200 fe = (110*140)/200=77   Sexo Edad masculino femenino Total < 30 60 50 110 >= 30 80 10 90 140 200

Test Chi-cuadrado: Frecuencia esperada Frecuencia esperada vs. observada para todas las celdas:   Sexo Edad masculino femenino Total < 30 77 33 110 >= 30 63 27 90 140 60 200   Sexo Edad masculino femenino Total < 30 60 50 110 >= 30 80 10 90 140 200

Test Chi-cuadrado H0: Edad y sexo son independiente H1: Edad y sexo son dependiente (hay una relación entre edad y sexo) df = 1 = (r-1)*(k-1) Valor crítico de chi-cuadrado (df=1, α=0,01)=6,63 (ver tabla) Chi-cuadrado = =27,8 > 6,63 => hay que rechazar H0=>edad y sexo sí son dependiente

Test KS

PCA Motivación (1/3) Problema: 9 índices de calidad de vida en 329 ciudades de USA Índices: climate, housing, health, crime, transportation, education, arts, recreation, and economics. Siempre más es mejor, alto crimen  baja tasa de criminalidad. Exploración simple: ‘Boxplot’

PCA Motivación (2/3) Veamos las relaciones

Principal Component Analysis PCA Motivación (3/3) Que nos gustaría: Reducir el Espacio de Atributos con la menor pérdida de información posible. La Solución PCA Principal Component Analysis

Idea Básica Planteamiento del Problema: Rotación de ejes para maximizar varianza. Idea de Fondo: tal vez sólo me baste con z1. z1 z2 x2 x1 Planteamiento del Problema: Hay p-variables con valores medidos. n elementos de que son las medidas. X matriz de n×p Supuesto: X es centrado en la media (cada variable tiene restada su media)

Siguiendo la idea Posible Solución: Sea a1 el vector de pesos de la proyección de dimensión de p×1 (deconocido por ahora). Entonces podemos escribir la primera componente buscada como: La media de z1 será cero y su varianza es: Matriz de Varianza-Covarianza Entonces Maximicemos la Varianza

Solución Queremos un ponderador bien comportado exijámosle norma 1  Ahora tenemos un problema de optimización, ocupemos Lagrange: Maximizamos derivando O sea Valores y Vectores propios

Solución El mayor valor del vector propio corresponde a la primera componente y así sucesivamente. De regreso a nuestro problema: a1 a2 a3 a4 Economics Recreation Arts Education Transportation Crime Health housing climate 0.0064 -0.0155 0.0067 0.0263 0.2691 -0.9372 0.0826 0.1778 0.1783 0.0205 -0.0278 0.0266 0.0281 0.0109 -0.0376 -0.0990 0.1493 -0.0188 -0.9715 0.0384 0.0252 0.0014 -0.0415 -0.0216 0.9309 0.2823 0.1510 -0.0278 0.0698 -0.1038 -0.1496 -0.0690 0.0251 -0.1734 -0.0127 -0.9745 1 2 3 4 5 x 10 Values

Solución Más Gráficos 1 2 3 4 Principal Component 10 20 30 40 50 60 70 10 20 30 40 50 60 70 80 90 100 Variance Explained (%) Principal Component 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Covarianza vs. Correlación Da lo mismo si los atributos tienen mucha diferencia entre sus varianzas  ¡NO! Quiero que la varianza importe o no. Si la varianza es informativa si La opción entonces es estandarizar las variables. Economics Recreation Arts Education Transportation Crime Health housing climate 0.2064 0.2178 -0.6900 0.1373 0.3565 0.2506 -0.2082 0.5118 0.4602 -0.2995 -0.0073 0.0147 0.2813 0.3553 0.1851 -0.5391 0.3512 -0.1796 0.1464 -0.3029 0.2753 -0.4834 0.2297 0.3354 0.4631 -0.1948 -0.0265 -0.1011 0.3279 0.3845 -0.0509 -0.1898 0.1354 0.4713 0.6073 0.4218 Esto parece más razonable a1 a2 a3 a4

Independent Component Analysis ICA: Independent Component Analysis: Used to separate statistically independent signals. Example: Cocktail Party Problem

Cocktail Party Problem Independent Component Analysis Microphone 1 Microphone 2 Microphone 3 Microphone 4

ICA for Cocktail Party Problem Component 1 Component 2 Component 3 Component 4

Applications of ICA Financial Time Series Image Processing … … http://www.cis.hut.fi/projects/ica/

Application in Santiago Monitoring stations = Microphons Sources of Contamination = Persons

Application: Prediction of Smog Independent Component Analysis Measurements

Monitoring Stations in Santiago Contaminants: CO SO2 NO/NO2 O3 MP10 Others 3 3 PowerPoint Speaker Support Guidelines

Available data

Preprocessing: Moving average

Forecasting External Variables Independent components + external variables (weather, emergency measures, holidays, etc) as input to forecast each component for t days. Independent Components: Forecasting techniques (Neural networks, Regression, ARIMA, etc.) External Variables Forecast for t days

ICA Model We have a system of equations with variables si (“latent variables“): xj = aj1s1 + aj2s2 + .. + ajnsn, for each sensor j x = As Where: x = Measurements A = (unknown) Matrix s = (unknown) Real Sources Determine A and s using x Having A we can determine W=A-1 in order to calculate: s = Wx = A-1x

How? Central Limit Theorem: “The sum of independent random variables converges to a Gaussian Distribution.” f(s1) f(s2) f(x1) = f(s1 +s2) Definition 1 (General definition)   ICA of the random vector x consists of finding a linear transform A so that the components si are as independent as possible, in the sense of maximizing some function F(s1,...,sm) that measures independence.

ICA Model How to measure independence? Kurtosis Entropy Neg-Entropy Minimizing mutual information

ICA Model Assumptions: Sources are Independent At most one source is gaussian Cannot distinguish two gaussian sources 3 3 PowerPoint Speaker Support Guidelines