Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Selección de atributos
2
Contenido Selección de atributos: Extracción de atributos:
Test Chi cuadrado Test KS (Kolmogoroff-Smirnoff) Extracción de atributos: Análisis de componentes principales (PCA) Análisis de componentes independientes (ICA)
3
Clasificación de técnicas para la selección de atributos
Filter Wrapper Embedded methods
4
Filter Correlación entre atributos y variable dependiente
Relación entre atributo y variable dependiente Test chi-cuadrado para atributos categóricos ANOVA (Analysis of Variance) o test KS (Kolmogorov-Smirnov) para atributos numéricos
5
Test Chi-cuadrado Goodness of Fit Independence of two variables
Hypotheses concerning proportions
6
Test Chi-cuadrado: Independencia de dos variables
Tenemos 2 variables categóricas Hipótesis: estas variables son independiente Independencia significa: Conocimiento de una de las dos variables no afecta la probabilidad de tomar ciertos valores de la otra variable
7
Test Chi-cuadrado: Tabla de contingencia
Tabla de contingencia: matriz con r filas y k columnas, donde r=número de valores de variable 1 k=número de valores de variable 2
8
Test Chi-cuadrado: Tabla de contingencia
Ejemplo: Variable 1=Edad, variable 2=sexo Grado de libertad (degree of freedom): df=(r-1)(k-1) Idea: Comparar frecuencia esperada con frecuencia observada Hipótesis nula: variables son independientes Sexo Edad masculino femenino Total < 30 60 50 110 >= 30 80 10 90 140 200 r=2 k=2
9
Test Chi-cuadrado: Test
Frecuencia esperada de una celda fe: fe = (fr*fk)/n con: fr = frecuencia total en fila r fk = frecuencia total en columna k Ejemplo: r=k=1; fr=110; fk=140; n=200 fe = (110*140)/200=77 Sexo Edad masculino femenino Total < 30 60 50 110 >= 30 80 10 90 140 200
10
Test Chi-cuadrado: Frecuencia esperada
Frecuencia esperada vs. observada para todas las celdas: Sexo Edad masculino femenino Total < 30 77 33 110 >= 30 63 27 90 140 60 200 Sexo Edad masculino femenino Total < 30 60 50 110 >= 30 80 10 90 140 200
11
Test Chi-cuadrado H0: Edad y sexo son independiente
H1: Edad y sexo son dependiente (hay una relación entre edad y sexo) df = 1 = (r-1)*(k-1) Valor crítico de chi-cuadrado (df=1, α=0,01)=6,63 (ver tabla) Chi-cuadrado = =27,8 > 6,63 => hay que rechazar H0=>edad y sexo sí son dependiente
12
Test KS
13
PCA Motivación (1/3) Problema: 9 índices de calidad de vida en 329 ciudades de USA Índices: climate, housing, health, crime, transportation, education, arts, recreation, and economics. Siempre más es mejor, alto crimen baja tasa de criminalidad. Exploración simple: ‘Boxplot’
14
PCA Motivación (2/3) Veamos las relaciones
15
Principal Component Analysis
PCA Motivación (3/3) Que nos gustaría: Reducir el Espacio de Atributos con la menor pérdida de información posible. La Solución PCA Principal Component Analysis
16
Idea Básica Planteamiento del Problema:
Rotación de ejes para maximizar varianza. Idea de Fondo: tal vez sólo me baste con z1. z1 z2 x2 x1 Planteamiento del Problema: Hay p-variables con valores medidos. n elementos de que son las medidas. X matriz de n×p Supuesto: X es centrado en la media (cada variable tiene restada su media)
17
Siguiendo la idea Posible Solución:
Sea a1 el vector de pesos de la proyección de dimensión de p×1 (deconocido por ahora). Entonces podemos escribir la primera componente buscada como: La media de z1 será cero y su varianza es: Matriz de Varianza-Covarianza Entonces Maximicemos la Varianza
18
Solución Queremos un ponderador bien comportado exijámosle norma 1
Ahora tenemos un problema de optimización, ocupemos Lagrange: Maximizamos derivando O sea Valores y Vectores propios
19
Solución El mayor valor del vector propio corresponde a la primera componente y así sucesivamente. De regreso a nuestro problema: a1 a2 a3 a4 Economics Recreation Arts Education Transportation Crime Health housing climate 1 2 3 4 5 x 10 Values
20
Solución Más Gráficos 1 2 3 4 Principal Component 10 20 30 40 50 60 70
10 20 30 40 50 60 70 80 90 100 Variance Explained (%) Principal Component 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
21
Covarianza vs. Correlación
Da lo mismo si los atributos tienen mucha diferencia entre sus varianzas ¡NO! Quiero que la varianza importe o no. Si la varianza es informativa si La opción entonces es estandarizar las variables. Economics Recreation Arts Education Transportation Crime Health housing climate Esto parece más razonable a1 a2 a3 a4
22
Independent Component Analysis
ICA: Independent Component Analysis: Used to separate statistically independent signals. Example: Cocktail Party Problem
23
Cocktail Party Problem
Independent Component Analysis Microphone 1 Microphone 2 Microphone 3 Microphone 4
24
ICA for Cocktail Party Problem
Component 1 Component 2 Component 3 Component 4
25
Applications of ICA Financial Time Series Image Processing … …
26
Application in Santiago
Monitoring stations = Microphons Sources of Contamination = Persons
27
Application: Prediction of Smog
Independent Component Analysis Measurements
28
Monitoring Stations in Santiago
Contaminants: CO SO2 NO/NO2 O3 MP10 Others 3 3 PowerPoint Speaker Support Guidelines
29
Available data
30
Preprocessing: Moving average
31
Forecasting External Variables
Independent components + external variables (weather, emergency measures, holidays, etc) as input to forecast each component for t days. Independent Components: Forecasting techniques (Neural networks, Regression, ARIMA, etc.) External Variables Forecast for t days
32
ICA Model We have a system of equations with variables si (“latent variables“): xj = aj1s1 + aj2s ajnsn, for each sensor j x = As Where: x = Measurements A = (unknown) Matrix s = (unknown) Real Sources Determine A and s using x Having A we can determine W=A-1 in order to calculate: s = Wx = A-1x
33
How? Central Limit Theorem:
“The sum of independent random variables converges to a Gaussian Distribution.” f(s1) f(s2) f(x1) = f(s1 +s2) Definition 1 (General definition) ICA of the random vector x consists of finding a linear transform A so that the components si are as independent as possible, in the sense of maximizing some function F(s1,...,sm) that measures independence.
34
ICA Model How to measure independence? Kurtosis Entropy Neg-Entropy
Minimizing mutual information
35
ICA Model Assumptions: Sources are Independent
At most one source is gaussian Cannot distinguish two gaussian sources 3 3 PowerPoint Speaker Support Guidelines
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.